En inferencia frecuentista , queremos determinar con qué frecuencia algo habría sucedido si un proceso estocástico dado se realizara repetidamente. Ese es el punto de partida para la teoría de los valores p, los intervalos de confianza y similares. Sin embargo, en muchos proyectos aplicados, el proceso "dado" no se da realmente, y el estadístico tiene que hacer al menos algún trabajo para especificarlo y modelarlo. Este puede ser un problema sorprendentemente ambiguo, como lo es en este caso.
Modelado del proceso de generación de datos
Según la información proporcionada, nuestro mejor candidato parece ser el siguiente:
- Si el medidor de 100 V lee 100 V, el ingeniero vuelve a medir con el medidor de 1000 V si está operativo. De lo contrario, simplemente marca 100V y sigue adelante.
¿Pero no es esto un poco injusto para nuestro ingeniero? Suponiendo que es un ingeniero y no simplemente un técnico, probablemente comprende por qué necesita volver a medir cuando el primer medidor lee 100V; es porque el medidor está saturado en el límite superior de su rango, por lo tanto, ya no es confiable. Entonces, tal vez lo que el ingeniero realmente haría es
- Si el medidor de 100 V lee 100, el ingeniero vuelve a medir con el medidor de 1000 V si está operativo. De lo contrario, simplemente marca 100 V, agrega un signo más para indicar la medición saturada y continúa.
Ambos procesos son consistentes con los datos que tenemos, pero son procesos diferentes y producen diferentes intervalos de confianza. El proceso 2 es el que preferiríamos como estadísticos. Si los voltajes a menudo están muy por encima de 100 V, el Proceso 1 tiene un modo de falla potencialmente catastrófico en el que las mediciones se subestiman ocasionalmente, porque los datos se censuran sin que lo sepamos. El intervalo de confianza se ampliará en consecuencia. Podríamos mitigar esto pidiéndole al ingeniero que nos diga cuándo su medidor de 1000V no funciona, pero esta es realmente otra forma de garantizar que nuestros datos se ajusten al Proceso 2.
Si el caballo ya ha salido del establo y no podemos determinar cuándo las mediciones están o no censuradas, podríamos tratar de inferir a partir de los datos los momentos en que el medidor de 1000V no está funcionando. Al introducir una regla de inferencia en el proceso, creamos efectivamente un nuevo Proceso 1.5 distinto de 1 y 2. Nuestra regla de inferencia a veces funcionaría y otras no, por lo que el intervalo de confianza del Proceso 1.5 sería de tamaño intermedio en comparación con los Procesos 1 y 2)
En teoría, no hay nada malo o sospechoso en una estadística única que tenga tres intervalos de confianza diferentes asociados con tres procesos estocásticos plausiblemente representativos diferentes. En la práctica, pocos consumidores de estadísticas desean tres intervalos de confianza diferentes. Quieren uno, el que se basa en lo que realmente habría sucedido, si el experimento se hubiera repetido muchas veces.Por lo general, la estadística aplicada considera el conocimiento de dominio que ha adquirido durante el proyecto, hace una conjetura educada y presenta el intervalo de confianza asociado con el proceso que ha adivinado. O ella trabaja con el cliente para formalizar el proceso, por lo que no es necesario adivinar en el futuro.
Cómo responder a nueva información
A pesar de la insistencia del estadístico en la historia, la inferencia frecuentista no requiere que repitamos las mediciones cuando obtenemos nueva información que sugiere que el proceso generador de estocástico no es exactamente lo que originalmente concebimos. Sin embargo, si el proceso se va a repetir, debemos asegurarnos de que todas las repeticiones sean consistentes con el proceso del modelo asumido por el intervalo de confianza. Podemos hacer esto cambiando el proceso o cambiando nuestro modelo del mismo.
Si cambiamos el proceso, es posible que debamos descartar datos pasados que se recopilaron de manera inconsistente con ese proceso. Pero eso no es un problema aquí, porque todas las variaciones del proceso que estamos considerando son solo diferentes cuando algunos de los datos están por encima de 100V, y eso nunca sucedió en este caso.
Hagamos lo que hagamos, el modelo y la realidad deben alinearse. Solo entonces la tasa de error frecuentista teóricamente garantizada será la que el cliente realmente obtenga al repetir el proceso.
La alternativa bayesiana
Por otro lado, si todo lo que realmente nos importa es el rango probable de la media real para esta muestra, deberíamos descartar el frecuentismo por completo y buscar a las personas que venden la respuesta a esa pregunta: los bayesianos. Si seguimos esta ruta, todo el regateo sobre contrafactuales se vuelve irrelevante; todo lo que importa es el previo y la probabilidad. A cambio de esta simplificación, perdemos cualquier esperanza de garantizar una tasa de error bajo la repetida ejecución del "experimento".
¿Por qué tanto alboroto?
Esta historia fue construida para que parezca que el estadístico frecuentista se preocupa por cosas tontas sin ninguna razón. Honestamente, ¿a quién le importan estos tontos contrafácticos? La respuesta, por supuesto, es que a todos debería importarles. Los campos científicos de vital importancia sufren actualmente una grave crisis de replicación , lo que sugiere que la frecuencia de los descubrimientos falsos es mucho mayor de lo esperado en la literatura científica. Uno de los impulsores de esta crisis, aunque no es el único de ninguna manera , es el aumento de p-hacking , que es cuando los investigadores juegan con muchas variaciones de un modelo, controlando diferentes variables, hasta que adquieren importancia.
El hackeo P ha sido ampliamente vilipendiado en los medios científicos populares y la blogosfera, pero pocos entienden realmente qué hay de malo en el hackeo P y por qué. Contrariamente a la opinión estadística popular, no hay nada de malo en mirar sus datos antes, durante y después del proceso de modelado. Lo que está mal es no informar los análisis exploratorios y cómo influyeron en el curso del estudio. Solo observando el proceso completo podemos incluso determinar qué modelo estocástico es representativo de ese proceso y qué análisis frecuentista es apropiado para ese modelo, si lo hay.
Afirmar que cierto análisis frecuentista es apropiado es un reclamo muy serio. Hacer esa afirmación implica que te estás vinculando a la disciplina del proceso estocástico que has elegido, lo que implica un sistema completo de contrafactuales sobre lo que habrías hecho en diferentes situaciones. En realidad, debe ajustarse a ese sistema para que la garantía frecuente se aplique a usted. Muy pocos investigadores, especialmente aquellos en campos que enfatizan la exploración abierta, se ajustan al sistema y no informan escrupulosamente sus desviaciones; Es por eso que ahora tenemos una crisis de replicación en nuestras manos. (Algunos investigadores respetados han argumentado que esta expectativa no es realista, una posición con la que simpatizo, pero que va más allá del alcance de esta publicación).
Puede parecer injusto que critiquemos los artículos publicados basados en un reclamo sobre lo que habrían hecho si los datos hubieran sido diferentes. Pero esta es la naturaleza (algo paradójica) del razonamiento frecuentista: si acepta el concepto del valor p, debe respetar la legitimidad de modelar lo que se habría hecho con datos alternativos. (Gelman y Loken, 2013)
En estudios que son relativamente simples y / o estandarizados, como los ensayos clínicos, podemos ajustar para cosas como comparaciones múltiples o secuenciales y mantener la tasa de error teórico; En estudios más complejos y exploratorios, un modelo frecuentista puede ser inaplicable porque el investigador puede no ser plenamente consciente de todas las decisiones que se toman , y mucho menos registrarlas y presentarlas explícitamente. En tales casos, el investigador debe (1) ser honesto y directo sobre lo que se hizo; (2) presentar los valores de p con fuertes advertencias, o nada en absoluto; (3) considere presentar otras líneas de evidencia, como la plausibilidad previa de la hipótesis o un estudio de replicación de seguimiento.