Hay cosas básicas que puede hacer con cualquier conjunto de datos:
- Valide los valores (tolerancia de longitud de cadena, tipo de datos, máscaras de formato, presencia de campo requerida, etc.)
- Corrección de rango (¿Estos datos aparentemente correctos caen dentro de los rangos de valores esperados)
- Procesamiento preliminar (si intento analizar estos datos, ¿puedo realizar lo básico sin encontrar errores?)
- Informes preliminares (ejecute un informe en un conjunto de datos y asegúrese de que pase una prueba de cordura)
- Definir nulo frente a vacío frente a cero frente a falso para cualquier columna de datos
- Identificar datos que están fuera de lugar (valores numéricos dramáticamente diferentes a otros valores en un conjunto de datos, valores de cadena que parecen estar mal escritos, etc.)
- Eliminar o corregir datos obviamente erróneos
Comprender los datos para identificar errores es un juego de pelota completamente diferente, y es muy importante.
Por ejemplo, puede tener una regla que diga que un número de serie debe estar presente en un conjunto de datos dado y ese número de serie debe ser alfanumérico con una longitud máxima de cadena de 255 y una longitud mínima de cadena de 5.
Al observar los datos, puede encontrar una lectura de valor de número de serie en particular. "PLEASE ENTER SERIAL"
Es perfectamente válido, pero incorrecto.
Eso es bastante obvio, pero digamos que está procesando datos de existencias y tenía un rango de precios para 1000 acciones que estaba por debajo de un dólar. Mucha gente no sabría que un precio de acciones tan bajo no es válido en ciertos intercambios y es perfectamente válido en otros. Necesita conocer sus datos para comprender si lo que está viendo es problemático o no.
En el mundo real, no siempre puede darse el lujo de comprender sus datos íntimamente.
La forma en que evito problemas es aprovechando a las personas que me rodean. Para conjuntos de datos pequeños, puedo pedirle a alguien que revise los datos en su totalidad. Para los grandes, es más apropiado extraer un conjunto de muestras aleatorias y pedirle a alguien que haga una verificación de la cordura de los datos.
Además, es imperativo cuestionar la fuente de los datos y qué tan bien se puede confiar en esa fuente de datos. A menudo tengo múltiples fuentes de datos en conflicto y creamos reglas para determinar la "fuente de la verdad". A veces, un conjunto de datos tiene excelentes datos en un aspecto dado, pero otros conjuntos de datos son más fuertes en otras áreas.
Los datos introducidos manualmente suelen ser los más escépticos, pero en algunos casos son más fuertes que cualquier cosa que se pueda adquirir a través de la automatización.