Ok, advertencia justa: esta es una pregunta filosófica que no involucra números. He estado pensando mucho sobre cómo los errores se infiltran en los conjuntos de datos a lo largo del tiempo y cómo deberían ser tratados por los analistas, ¿o si realmente debería importar?
En cuanto a los antecedentes, estoy haciendo el análisis de un estudio a largo plazo que involucra muchos conjuntos de datos recopilados por probablemente 25 personas durante 7-8 años; nadie ha reunido todos los datos en una estructura coherente (ese es mi trabajo). He estado haciendo mucha entrada de datos (transcribiendo de fotocopias de viejos cuadernos de laboratorio) y sigo encontrando pequeños errores de transcripción que hicieron otras personas, y también encuentro entradas de datos que son difíciles o imposibles de leer, principalmente porque la tinta se ha desvanecido con el tiempo. Estoy usando el contexto para hacer 'mejores conjeturas' sobre lo que dicen los datos y dejar los datos señalados por completo si no estoy bastante seguro. Pero sigo pensando en el hecho de que cada vez que se copian datos, la frecuencia de errores aumentará inevitablemente hasta que los datos originales se pierdan por completo.
Por lo tanto, esto me lleva a pensar: además de los errores de instrumentos / medición y los errores de registro, hay un componente fundamental de 'error de manejo de datos' que aumentará con el tiempo y con un mayor manejo de los datos (nota al margen: esto es probablemente solo otra forma de establecer la segunda ley de la termodinámica, ¿verdad? La entropía de datos siempre aumentará). En consecuencia, me pregunto si debería introducirse algún tipo de 'corrección' para tener en cuenta el historial de vida de los conjuntos de datos (algo parecido a una corrección de Bonferroni). En otras palabras, ¿deberíamos suponer que los conjuntos de datos más antiguos o más copiados son menos precisos, y si es así, debemos ajustar los resultados en consecuencia?
Pero mi otro pensamiento es que los errores son una parte inherente de la recopilación de datos y el manejo de datos, y dado que todas las pruebas estadísticas se han desarrollado con datos del mundo real, ¿quizás estas fuentes de error ya están "incluidas" en el análisis?
Además, otro punto que vale la pena mencionar es que, dado que los errores de datos son aleatorios, es mucho más probable que reduzcan la fuerza de un hallazgo que lo mejoren; en otras palabras, los errores de manejo de datos conducirían a errores de Tipo 2, no a errores de Tipo 1 . Por lo tanto, en muchos contextos, si usaba datos antiguos / cuestionables y aún encontraba un efecto, eso aumentaría su confianza en que el efecto es real (porque fue lo suficientemente fuerte como para sobrevivir a la adición de un error aleatorio al conjunto de datos). Entonces, por esa razón, ¿tal vez la 'corrección' debería ir en sentido contrario (aumentar el nivel alfa requerido para un 'hallazgo'), o simplemente no molestarnos?
De todos modos, lamento ser tan detallado y obtuso, no estoy realmente seguro de cómo hacer esta pregunta de manera más concisa. Gracias por soportarme.