Ayuda a entender cómo se registraron los datos.
Déjame compartir una historia . Una vez, hace mucho tiempo, muchos conjuntos de datos se almacenaban solo en una copia impresa que se desvanecía. En esos días oscuros contraté con una organización (de gran pedigrí y tamaño; muchos de ustedes probablemente poseen su stock) para computarizar alrededor de 10 ^ 5 registros de datos de monitoreo ambiental en una de sus plantas de fabricación. Para hacer esto, marqué personalmente un estante de informes de laboratorio (para mostrar dónde estaban los datos), creé formularios de entrada de datos y contraté una agencia temporal para alfabetizartrabajadores para escribir los datos en los formularios. (Sí, tenía que pagar más por las personas que sabían leer). Debido al valor y la sensibilidad de los datos, realicé este proceso en paralelo con dos trabajadores a la vez (que generalmente cambiaban de un día a otro). Tomó un par de semanas. Escribí un software para comparar los dos conjuntos de entradas, identificando y corrigiendo sistemáticamente todos los errores que aparecían.
Chico, hubo errores! ¿Qué puede ir mal? Una buena manera de describir y medir errores es a nivel del registro básico , que en esta situación era una descripción de un único resultado analítico (la concentración de algún químico, a menudo) para una muestra particular obtenida en un punto de monitoreo dado en un fecha dada Al comparar los dos conjuntos de datos, encontré:
Errores de omisión : un conjunto de datos incluiría un registro, otro no. Esto usualmente sucedió porque (a) se pasaría por alto una o dos líneas en la parte inferior de una página o (b) se omitiría una página completa.
Errores aparentes de omisión que fueron realmente errores de entrada de datos. Un registro se identifica mediante un nombre de punto de monitoreo, una fecha y el "analito" (generalmente un nombre químico). Si alguno de estos tiene un error tipográfico, no coincidirá con los otros registros con los que está relacionado. En efecto, el registro correcto desaparece y aparece un registro incorrecto.
Duplicación falsa . Los mismos resultados pueden aparecer en múltiples fuentes, transcribirse varias veces y parecen ser verdaderas medidas repetidas cuando no lo son. Los duplicados son fáciles de detectar, pero decidir si son erróneos depende de saber si los duplicados deberían aparecer en el conjunto de datos. A veces simplemente no puedes saberlo.
Errores de entrada de datos francos . Los "buenos" son fáciles de atrapar porque cambian el tipo de referencia: usar la letra "O" para el dígito "0", por ejemplo, convierte un número en un no número. Otros errores buenos cambian tanto el valor que se puede detectar fácilmente con pruebas estadísticas. (En un caso, el primer dígito en "1,000,010 mg / Kg" se cortó, dejando un valor de 10. ¡Es un cambio enorme cuando se habla de una concentración de pesticida!) Los errores graves son difíciles de detectar porque cambian un valor en uno que se ajusta (más o menos) con el resto de los datos, como escribir "80" para "50". (Este tipo de error ocurre con el software OCR todo el tiempo).
Transposiciones . Se pueden ingresar los valores correctos pero asociados con las claves de registro incorrectas. Esto es insidioso, porque las características estadísticas globales del conjunto de datos pueden permanecer inalteradas, pero se pueden crear diferencias espurias entre los grupos. Probablemente solo un mecanismo como la doble entrada sea capaz de detectar estos errores.
Una vez que esté al tanto de estos errores y sepa, o tenga una teoría, de cómo ocurren, puede escribir scripts para controlar sus conjuntos de datos en busca de la posible presencia de dichos errores y marcarlos para obtener más atención. No siempre puede resolverlos, pero al menos puede incluir un campo de "comentario" o "indicador de calidad" para acompañar los datos a lo largo de su análisis posterior.
Desde entonces, he prestado atención a los problemas de calidad de los datos y he tenido muchas más oportunidades para realizar comprobaciones exhaustivas de grandes conjuntos de datos estadísticos. Ninguno es perfecto; Todos se benefician de los controles de calidad. Algunos de los principios que he desarrollado a lo largo de los años para hacer esto incluyen
Siempre que sea posible, cree redundancia en los procedimientos de entrada y transcripción de datos: sumas de verificación, totales, entradas repetidas: cualquier cosa que respalde las verificaciones internas automáticas de consistencia.
Si es posible, cree y explote otra base de datos que describa cómo deberían verse los datos: es decir, metadatos legibles por computadora. Por ejemplo, en un experimento de drogas puede saber de antemano que cada paciente será visto tres veces. Esto le permite crear una base de datos con todos los registros correctos y sus identificadores con los valores que esperan ser completados. Rellene con los datos que le proporcionó y luego verifique si hay duplicados, omisiones y datos inesperados.
Siempre normalice sus datos (específicamente, póngalos en al menos un cuarto formulario normal ), independientemente de cómo planee formatear el conjunto de datos para el análisis. Esto lo obliga a crear tablas de cada entidad conceptualmente distinta que está modelando. (En el caso ambiental, esto incluiría tablas de ubicaciones de monitoreo, muestras, productos químicos (propiedades, rangos típicos, etc.), pruebas de esas muestras (una prueba generalmente cubre un conjunto de productos químicos) y los resultados individuales de esas pruebas. Al hacerlo, crea muchas comprobaciones efectivas de la calidad y la coherencia de los datos e identifica muchos valores potencialmente faltantes o duplicados o inconsistentes.
Este esfuerzo (que requiere buenas habilidades de procesamiento de datos pero es sencillo) es asombrosamente efectivo. Si aspira a analizar conjuntos de datos grandes o complejos y no tiene un buen conocimiento práctico de las bases de datos relacionales y su teoría, agréguelo a su lista de cosas que debe aprender lo antes posible. Pagará dividendos a lo largo de su carrera.
Realice siempre tantas verificaciones "estúpidas" como sea posible . Estas son verificaciones automáticas de cosas obvias, como que las fechas caen dentro de los períodos esperados, los recuentos de pacientes (o productos químicos o lo que sea) siempre se suman correctamente, que los valores siempre son razonables (por ejemplo, un pH debe estar entre 0 y 14 y tal vez en un rango mucho más estrecho para, por ejemplo, lecturas de pH en sangre), etc. Aquí es donde la experiencia en el dominio puede ser de mayor ayuda: el estadístico puede hacer preguntas estúpidas sin miedo a los expertos y explotar las respuestas para verificar los datos.
Por supuesto, se puede decir mucho más: el tema vale un libro, pero esto debería ser suficiente para estimular ideas.