Conozco a alguien que está trabajando en un proyecto que implica ingerir archivos de datos sin tener en cuenta las columnas o los tipos de datos. La tarea es tomar un archivo con cualquier número de columnas y varios tipos de datos y generar estadísticas de resumen de los datos numéricos.
Sin embargo, no está seguro de cómo asignar dinámicamente tipos de datos para ciertos datos basados en números. Por ejemplo:
CITY
Albuquerque
Boston
Chicago
Obviamente, estos no son datos numéricos y se almacenarán como texto. Sin embargo,
ZIP
80221
60653
25525
no están claramente marcados como categóricos. Su software asignaría el código postal como estadísticas de resumen numérico y de salida, lo que no tiene sentido para ese tipo de datos.
Un par de ideas que tuvimos fueron:
- Si una columna es todos enteros, etiquétela como categórica. Esto claramente no funcionaría, pero fue una idea.
- Si una columna tiene menos de n valores únicos y es numérica, etiquétela categórica. Esto podría estar más cerca, pero aún podría haber problemas con la caída de los datos numéricos.
- Mantenga una lista de datos numéricos comunes que en realidad deberían ser categóricos y compare los encabezados de columna con esta lista para las coincidencias. Por ejemplo, cualquier cosa con "ZIP" sería categórico.
Mi instinto me dice que no hay forma de asignar con precisión los datos numéricos como categóricos o numéricos, pero esperaba una sugerencia. Cualquier idea que tenga es muy apreciada.