Morey et al (2015) argumentan que los intervalos de confianza son engañosos y que existen múltiples sesgos relacionados con su comprensión. Entre otros, describen la falacia de precisión de la siguiente manera:
La falacia de precisión
El ancho de un intervalo de confianza indica la precisión de nuestro conocimiento sobre el parámetro. Los intervalos de confianza estrechos muestran conocimiento preciso, mientras que los errores de confianza amplios muestran conocimiento impreciso.No existe una conexión necesaria entre la precisión de una estimación y el tamaño de un intervalo de confianza. Una forma de ver esto es imaginar que dos investigadores, un investigador principal y un estudiante de doctorado, están analizando datos de participantes de un experimento. Como ejercicio para el beneficio del estudiante de doctorado, el investigador principal decide dividir aleatoriamente a los participantes en dos conjuntos de 25 para que cada uno pueda analizar por separado la mitad del conjunto de datos. En una reunión posterior, los dos comparten entre sí los intervalos de confianza t de Student para la media. El IC del 95 % del estudiante de doctorado es 52 ± 2 , y el investigador principal el 95 %CI es .
El investigador principal señala que sus resultados son ampliamente consistentes y que podrían utilizar la media ponderada por igual de sus dos estimaciones puntuales respectivas, , como una estimación general de la media real.
La estudiante de doctorado, sin embargo, argumenta que sus dos medios no deben ser ponderados de manera uniforme: observa que su IC es la mitad de ancho y argumenta que su estimación es más precisa y, por lo tanto, debe ser ponderada más pesadamente. Su asesor señala que esto no puede ser correcto, porque la estimación de una ponderación desigual de los dos medios sería diferente de la estimación del análisis del conjunto de datos completo, que debe ser . El error del estudiante de doctorado es suponer que los IC indican directamente la precisión posterior a los datos.
El ejemplo anterior parece ser engañoso. Si dividimos al azar una muestra por la mitad, en dos muestras, entonces esperaríamos que tanto las medias de la muestra como los errores estándar estén cerca. En tal caso, no debería haber ninguna diferencia entre usar la media ponderada (por ejemplo, ponderada por errores inversos) y usar la media aritmética simple. Sin embargo, si las estimaciones difieren y los errores en una de las muestras son notablemente mayores, esto podría sugerir "problemas" con dicha muestra.
Obviamente, en el ejemplo anterior, los tamaños de muestra son los mismos, por lo que "unir" los datos tomando la media de las medias es lo mismo que tomar la media de toda la muestra. El problema es que todo el ejemplo sigue la lógica mal definida de que la muestra se divide primero en partes y luego se vuelve a unir para la estimación final.
El ejemplo puede reformularse para llevar exactamente a la conclusión opuesta:
El investigador y el estudiante decidieron dividir su conjunto de datos en dos mitades y analizarlos de forma independiente. Luego, compararon sus estimaciones y parecía que la muestra significaba que calculaban que eran muy diferentes, además, el error estándar de la estimación de los estudiantes fue mucho mayor. El estudiante temía que esto pudiera sugerir problemas con la precisión de su estimación, pero el investigador dio a entender que no hay conexión entre los intervalos de confianza y la precisión, por lo que ambas estimaciones son igualmente confiables y pueden publicar cualquiera de ellos, elegidos al azar, como su estimación final.
Dicho de manera más formal, los intervalos de confianza "estándar", como la de Student , se basan en errores
donde es alguna constante. En tal caso, están directamente relacionados con la precisión, ¿no es así?
Entonces mi pregunta es:
¿es la falacia de precisión realmente una falacia? ¿Qué dicen los intervalos de confianza sobre la precisión?
Morey, R., Hoekstra, R., Rouder, J., Lee, M. y Wagenmakers, E.-J. (2015) La falacia de poner confianza en los intervalos de confianza. Boletín y revisión psiconómica, 1–21. https://learnbayes.org/papers/confidenceIntervalsFallacy/