Preguntas etiquetadas con data-cleaning

4
¿Limpieza de datos de formato inconsistente en R?
A menudo trato con datos de encuestas desordenados que requieren mucha limpieza antes de que se puedan realizar estadísticas. Solía ​​hacer esto "manualmente" en Excel, a veces usando fórmulas de Excel, y otras comprobando las entradas una por una. Comencé a hacer cada vez más estas tareas escribiendo guiones para …
16 r  data-cleaning 

1
Estado del arte en deduplicación
¿Cuáles son los métodos más avanzados en deduplicación de registros? La deduplicación también se denomina a veces: vinculación de registros, resolución de entidad, resolución de identidad, fusión / purga. Sé, por ejemplo, sobre CBLOCK [1]. Agradecería que las respuestas también incluyeran referencias al software existente que implementa los métodos. Sé, …


3
Limpieza automática de datos
Un problema común es que ML es de baja calidad de los datos: errores en los valores de las características, instancias mal clasificadas, etc. Una forma de abordar este problema es revisar manualmente los datos y verificarlos, pero ¿existen otras técnicas? (¡Apuesto a que sí!) ¿Cuáles son mejores y por …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.