¿Los errores de manejo de datos ya están "incluidos en el precio" para el análisis estadístico?

Ok, advertencia justa: esta es una pregunta filosófica que no involucra números. He estado pensando mucho sobre cómo los errores se infiltran en los conjuntos de datos a lo largo del tiempo y cómo deberían ser tratados por los analistas, ¿o si realmente debería importar?

En cuanto a los antecedentes, estoy haciendo el análisis de un estudio a largo plazo que involucra muchos conjuntos de datos recopilados por probablemente 25 personas durante 7-8 años; nadie ha reunido todos los datos en una estructura coherente (ese es mi trabajo). He estado haciendo mucha entrada de datos (transcribiendo de fotocopias de viejos cuadernos de laboratorio) y sigo encontrando pequeños errores de transcripción que hicieron otras personas, y también encuentro entradas de datos que son difíciles o imposibles de leer, principalmente porque la tinta se ha desvanecido con el tiempo. Estoy usando el contexto para hacer 'mejores conjeturas' sobre lo que dicen los datos y dejar los datos señalados por completo si no estoy bastante seguro. Pero sigo pensando en el hecho de que cada vez que se copian datos, la frecuencia de errores aumentará inevitablemente hasta que los datos originales se pierdan por completo.

Por lo tanto, esto me lleva a pensar: además de los errores de instrumentos / medición y los errores de registro, hay un componente fundamental de 'error de manejo de datos' que aumentará con el tiempo y con un mayor manejo de los datos (nota al margen: esto es probablemente solo otra forma de establecer la segunda ley de la termodinámica, ¿verdad? La entropía de datos siempre aumentará). En consecuencia, me pregunto si debería introducirse algún tipo de 'corrección' para tener en cuenta el historial de vida de los conjuntos de datos (algo parecido a una corrección de Bonferroni). En otras palabras, ¿deberíamos suponer que los conjuntos de datos más antiguos o más copiados son menos precisos, y si es así, debemos ajustar los resultados en consecuencia?

Pero mi otro pensamiento es que los errores son una parte inherente de la recopilación de datos y el manejo de datos, y dado que todas las pruebas estadísticas se han desarrollado con datos del mundo real, ¿quizás estas fuentes de error ya están "incluidas" en el análisis?

Además, otro punto que vale la pena mencionar es que, dado que los errores de datos son aleatorios, es mucho más probable que reduzcan la fuerza de un hallazgo que lo mejoren; en otras palabras, los errores de manejo de datos conducirían a errores de Tipo 2, no a errores de Tipo 1 . Por lo tanto, en muchos contextos, si usaba datos antiguos / cuestionables y aún encontraba un efecto, eso aumentaría su confianza en que el efecto es real (porque fue lo suficientemente fuerte como para sobrevivir a la adición de un error aleatorio al conjunto de datos). Entonces, por esa razón, ¿tal vez la 'corrección' debería ir en sentido contrario (aumentar el nivel alfa requerido para un 'hallazgo'), o simplemente no molestarnos?

De todos modos, lamento ser tan detallado y obtuso, no estoy realmente seguro de cómo hacer esta pregunta de manera más concisa. Gracias por soportarme.

dataset error

— Jas Max
fuente

Es una gran pregunta (+1). Sin embargo, un punto: podría ser un error sustancial tratar la mayoría de los errores de datos que menciona como "aleatorios". Por ejemplo, tienden a haber muchos más intercambios de los dígitos "0", "5", "6" y "8" durante las transcripciones que de otros dígitos (y algunos de estos pueden interpretarse erróneamente como "." Y viceversa). ) Además, los cambios realizados en valores de datos prominentes (como los extremos) a menudo se identifican y corrigen rápidamente. Aunque ciertamente hay algún elemento de oportunidad en estos procesos de corrupción de datos, caracterizarlos correctamente puede ser un problema importante.

— whuber

¿Por qué no trata los errores de manejo de datos como parte de los errores de medición y los trata en consecuencia? Si para medir el número de pasajeros del parque de atracciones, necesito desplegar 20 personas para vigilar las puertas, entonces puedo considerar a este equipo de 20 personas como una especie de dispositivo de medición

— Aksakal

@whuber, todavía es aleatorio mezclar 8 y 5, aunque puede no tener la misma probabilidad que mezclar 5 y 7.

— Aksakal

@whuber, ese es un punto fascinante (frecuencia no igual de ciertos tipos de errores de transcripción) en el que no había pensado. ¿Me puede señalar alguna fuente para aprender más sobre eso? ¿Me hace preguntarme si podría desarrollarse una prueba de calidad de datos, basada en la frecuencia de los dígitos? He oído hablar de pruebas similares para datos fraudulentos / falsificados basados en la frecuencia de dígitos, por lo que imagino que algo similar sería posible si las tendencias que menciona son consistentes.

— Jas Max

@whuber, un pensamiento más. Usted menciona que 0, 5, 6, 8 a menudo se confunden, porque se parecen. Me hace darme cuenta de que las diferentes fuentes de error tendrían errores de sustitución característicos; por ejemplo, si estuvieras escuchando los datos (registrando lo que alguien dijo), entonces creo que 5 y 9 probablemente se confundirían con mayor frecuencia. Si la fuente del error fue la entropía (desvanecimiento de tinta o movimiento de electrones), entonces creo que la sustitución sería más aleatoria, pero posiblemente también única. Si estos patrones se mantuvieron, tal vez podría investigar las fuentes de error en grandes conjuntos de datos, en función de la frecuencia de dígitos.

— Jas Max

Secundo la sugerencia de @Aksakal: si el analista considera que el error de medición es potencialmente importante, puede y debe modelarse explícitamente como parte del proceso de generación de datos.

Veo varias consideraciones que argumentan en contra de la introducción de un factor de corrección genérico basado, por ejemplo, en la antigüedad del conjunto de datos.

Primero, la edad puede ser un indicador muy pobre del grado de deterioro de los datos. Aparentemente, la tecnología de duplicación, compresión y conservación, y el grado de esfuerzo y cuidado necesarios para verificar la transcripción correcta, son los factores importantes. Algunos textos antiguos (por ejemplo, La Biblia) se han conservado durante siglos con una degradación aparentemente nula. Su ejemplo de VHS, si bien es legítimo, en realidad es inusual, ya que cada evento de duplicación siempre introduce errores, y no hay formas fáciles de verificar y corregir los errores de transcripción, si uno usa tecnologías baratas y ampliamente disponibles para la duplicación y el almacenamiento. Espero que se reduzca sustancialmente el grado de errores introducidos, a través de inversiones en sistemas más caros.

Este último punto es más general: la conservación y propagación de datos son actividades económicas . La calidad de la transmisión depende en gran medida de los recursos desplegados. Estas elecciones dependerán a su vez de la importancia percibida de los datos para quien esté duplicando y transmitiendo.

Las consideraciones económicas también se aplican al analista. Siempre hay más factores que puede tener en cuenta al hacer su análisis. ¿En qué condiciones los errores de transcripción de datos serán lo suficientemente importantes e importantes como para que valga la pena tenerlos en cuenta? Mi presentimiento es: tales condiciones no son comunes. Además, si se considera que la posible degradación de los datos es lo suficientemente importante como para tenerla en cuenta en su análisis, entonces probablemente sea lo suficientemente importante como para hacer el esfuerzo de modelar el proceso explícitamente, en lugar de insertar un paso genérico de "corrección".

Finalmente, no hay necesidad de desarrollar un factor de corrección genérico de novo . Ya existe un cuerpo sustancial de teoría y práctica estadística para analizar conjuntos de datos para los cuales el error de medición se considera importante.

En resumen: es un pensamiento interesante. Pero no creo que deba estimular ningún cambio en la práctica analítica.

— Arthur Small
fuente