Convierta datos de texto en categorías. Puede probar diferentes alternativas para la cantidad de información que deben contener las categorías, pero deben existir categorías específicas para cada variable. Como ejemplo, asumiré una variable que proviene de un campo de texto de un cuestionario de encuesta sobre la forma preferible de las personas de llegar al trabajo.
Al principio, debemos asegurarnos de que las respuestas con un significado similar estén escritas de la misma manera y pertenezcan a la misma categoría (por ejemplo, "en bicicleta", "ciclismo", "en bicicleta", todas tienen el mismo significado). Luego, puede intentar fusionarse en categorías menos detalladas (por ejemplo, combinar "tranvía", "metro" y "autobús" en "Medios de transporte público") o incluso más (por ejemplo, "Caminar", "Trotar", "Ciclismo" en " Actividad física ") según lo que intente averiguar.
Incluso puede poner algunas combinaciones diferentes en su conjunto de datos y luego los siguientes pasos determinarán cuáles se utilizarán para el análisis. En los casos en que los datos de texto se puedan "traducir" en variables ordenadas, asegúrese de hacer esto (por ejemplo, si tiene "pequeño, mediano, alto", transfórmelo a "1,2,3").
Principal Component Analysis
oNon-Negative Matrix Factorization
reducirá el número de variables, enriquecerá datos escasos y transformará todas las variables en cuantitativas. Además, al evaluar la calidad del modelo de reducción de dimensionalidad, el autor de la pregunta puede estimar la utilidad de las variables textuales.