Existe una cierta escuela de pensamiento según la cual el enfoque más extendido para las pruebas estadísticas es un "híbrido" entre dos enfoques: el de Fisher y el de Neyman-Pearson; estos dos enfoques, según la afirmación, son "incompatibles" y, por lo tanto, el "híbrido" resultante es una "mezcla incoherente". Proporcionaré una bibliografía y algunas citas a continuación, pero por ahora es suficiente decir que hay mucho escrito sobre eso en el artículo de wikipedia sobre Pruebas de hipótesis estadísticas . Aquí en CV, este punto fue repetido por @Michael Lew (ver aquí y aquí ).
Mi pregunta es: ¿por qué se afirma que los enfoques F y NP son incompatibles y por qué se afirma que el híbrido es incoherente? Tenga en cuenta que leí al menos seis documentos anti-híbridos (ver más abajo), pero todavía no entiendo el problema o el argumento. Tenga en cuenta también que no estoy sugiriendo debatir si F o NP es un mejor enfoque; Tampoco estoy ofreciendo discutir marcos frecuentistas vs. bayesianos. En cambio, la pregunta es: aceptar que tanto F como NP son enfoques válidos y significativos, ¿qué tiene de malo su híbrido?
Así es como entiendo la situación. El enfoque de Fisher es calcular el valor y tomarlo como evidencia contra la hipótesis nula. Cuanto más pequeña es la , más convincente es la evidencia. Se supone que el investigador combina esta evidencia con sus conocimientos previos, decide si es lo suficientemente convincente y procede en consecuencia. (Tenga en cuenta que las opiniones de Fisher cambiaron con los años, pero esto es a lo que parece haber convergido eventualmente). En contraste, el enfoque de Neyman-Pearson es elegir anticipación y luego verificar si; si es así, llámelo significativo y rechace la hipótesis nula (aquí omito gran parte de la historia de NP que no tiene relevancia para la discusión actual). Vea también una excelente respuesta de @gung en ¿ Cuándo usar el marco Fisher y Neyman-Pearson?
El enfoque híbrido es calcular el valor , informarlo (suponiendo implícitamente que cuanto más pequeño mejor), y también llamar a los resultados significativos si (generalmente ) y no significativos de lo contrario. Se supone que esto es incoherente. ¿Cómo puede ser inválido hacer dos cosas válidas simultáneamente?
Como particularmente incoherente los anti-hybridists ver la práctica generalizada de informes -valores como , o (o incluso p ≪ 0.0001 ), donde siempre se elige la desigualdad más fuerte. El argumento parece ser que (a) la fuerza de la evidencia no puede evaluarse adecuadamente ya que no se informa p exacta , y (b) las personas tienden a interpretar el número de la derecha en la desigualdad como α y lo ven como una tasa de error tipo I Y eso está mal. No veo un gran problema aquí. Primero, informar p exacto es ciertamente una mejor práctica, pero a nadie le importa si pes, por ejemplo, o 0.03 , por lo que redondearlo en una escala logarítmica no es tan malo (e ir por debajo de ∼ 0.0001 no tiene sentido de todos modos, vea ¿Cómo se deben informar los pequeños valores p? ). En segundo lugar, si el consenso es llamar significativo a todo lo que esté por debajo de 0.05 , la tasa de error será α = 0.05 y p ≠ α , como explica @gung en Interpretación del valor p en la prueba de hipótesis . Aunque este es un problema potencialmente confuso, no me parece más confuso que otros problemas en las pruebas estadísticas (fuera del híbrido). Además, cada lector puede tener su propia α favoritaen mente cuando lee un periódico híbrido, y su propia tasa de error como consecuencia. Entonces, ¿cuál es el gran problema?
Una de las razones por las que quiero hacer esta pregunta es porque literalmente duele ver cuánto del artículo de wikipedia sobre Pruebas de hipótesis estadísticas se dedica al híbrido lambasting. Siguiendo a Halpin & Stam, afirma que un cierto Lindquist tiene la culpa (incluso hay un gran escaneo de su libro de texto con "errores" resaltados en amarillo), y por supuesto el artículo wiki sobre Lindquist comienza con la misma acusación. Pero entonces, tal vez me estoy perdiendo algo.
Referencias
Gigerenzer, 1993, El superego, el ego y la identificación en el razonamiento estadístico - introdujo el término "híbrido" y lo llamó "mezcolanza incoherente"
- Véanse también las exposiciones más recientes de Gigerenzer et al .: por ejemplo, Mindless statistics (2004) y The Null Ritual. Lo que siempre quiso saber sobre las pruebas de significación pero tenía miedo de preguntar (2004).
Cohen, 1994, The Earth Is Round ( ) - un artículo muy popular con casi 3k citas, principalmente sobre diferentes temas pero citando favorablemente a Gigerenzer
Goodman, 1999, hacia estadísticas médicas basadas en evidencia. 1: La falacia del valor P
Hubbard y Bayarri, 2003, Confusión sobre las medidas de evidencia ( 's) versus errores ( α ' s) en las pruebas estadísticas clásicas , uno de los artículos más elocuentes que argumentan en contra de "híbrido"
Halpin & Stam, 2006, inferencia inductiva o comportamiento inductivo: enfoques de Fisher y Neyman-Pearson para pruebas estadísticas en investigación psicológica (1940-1960) [gratis después del registro] - culpa al libro de texto de 1940 de Lindquist por introducir el enfoque "híbrido"
@Michael Lew, 2006, Mala práctica estadística en farmacología (y otras disciplinas biomédicas básicas): probablemente no conozca P - una buena revisión y resumen
Citas
Gigerenzer: Lo que se ha institucionalizado como estadística inferencial en psicología no son las estadísticas de Fisher. Es una mezcla incoherente de algunas de las ideas de Fisher, por un lado, y algunas de las ideas de Neyman y ES Pearson, por el otro. Me refiero a esta mezcla como la "lógica híbrida" de la inferencia estadística.
Goodman: el enfoque de prueba de hipótesis [Neyman-Pearson] ofreció a los científicos una ganga faustiana, una forma aparentemente automática de limitar el número de conclusiones erróneas a largo plazo, pero solo al abandonar la capacidad de medir la evidencia [a la Fisher] y evaluar verdad de un solo experimento.
Hubbard y Bayarri: Las pruebas estadísticas clásicas son un híbrido anónimo de los enfoques competitivos y frecuentemente contradictorios [...]. En particular, hay una falla generalizada en apreciar la incompatibilidad del valor evidencial de Fisher con la tasa de error Tipo I, α , de la ortodoxia estadística de Neyman-Pearson. [...] Como un excelente ejemplo del desconcierto que surge de [esta] mezcla [...], considere el hecho poco apreciado de que el valor p del primero es incompatiblecon la prueba de hipótesis de Neyman-Pearson en la que se ha incrustado. [...] Por ejemplo, Gibbons y Pratt [...] declararon erróneamente: "Informar un valor P, ya sea exacto o dentro de un intervalo, permite a cada individuo elegir su propio nivel de significancia como la probabilidad máxima tolerable de un error tipo I. "
Halpin & Stam: el texto de Lindquist de 1940 fue una fuente original de la hibridación de los enfoques de Fisher y Neyman-Pearson. [...] en lugar de adherirse a una interpretación particular de las pruebas estadísticas, los psicólogos han permanecido ambivalentes y, de hecho, en gran medida ignorantes de las dificultades conceptuales implicadas por la controversia de Fisher y Neyman-Pearson.
Lew: Lo que tenemos es un enfoque híbrido que no controla las tasas de error ni permite evaluar la solidez de la evidencia.