Aceptación de hipótesis nula


15

Esta es una pregunta de discusión sobre la intersección de las estadísticas y otras ciencias. A menudo me enfrento al mismo problema: los investigadores en mi campo tienden a decir que no hay ningún efecto cuando el valor p no es inferior al nivel de significancia. Al principio, a menudo respondía que no es así como funcionan las pruebas de hipótesis. Dada la frecuencia con la que surge esta pregunta, me gustaría discutir este tema con estadísticos más experimentados.

Consideremos un artículo reciente en una revista científica del "mejor grupo editorial" Nature Communications Biology (hay varios ejemplos, pero centrémonos en uno)

Los investigadores interpretan un resultado no estadísticamente significativo de la siguiente manera:

Por lo tanto, la restricción calórica moderada crónica puede prolongar la vida útil y mejorar la salud de un primate, pero afecta la integridad de la materia gris del cerebro sin afectar el rendimiento cognitivo .

Prueba:

Sin embargo, los desempeños en la tarea del laberinto de Barnes no fueron diferentes entre los animales de control y con restricción calórica (LME: F = 0.05, p = 0.82; Fig. 2a). De manera similar, la tarea de alternancia espontánea no reveló ninguna diferencia entre los animales de control y los animales con restricción calórica (LME: F = 1.63, p = 0.22; Fig. 2b).

Los autores también sugieren la explicación de la ausencia del efecto, pero el punto clave no es la explicación sino la afirmación misma. Las parcelas proporcionadas se ven significativamente diferentes "a simple vista" para mí (Figura 2).

Además, los autores ignoran el conocimiento previo:

Se han informado efectos nocivos de la restricción calórica sobre el rendimiento cognitivo para ratas y para funciones cerebrales y emocionales en humanos

Puedo entender la misma afirmación para los grandes tamaños de muestra (sin efecto = sin efecto prácticamente significativo allí), pero en situaciones particulares se usaron pruebas complejas y no es obvio para mí cómo realizar cálculos de potencia.

Preguntas:

  1. ¿Pasé por alto algún detalle que haga válidas sus conclusiones?

  2. Teniendo en cuenta la necesidad de informar resultados negativos en la ciencia, cómo demostrar que no es "la ausencia de resultados" (que tenemos con ), sino "resultados negativos (por ejemplo, no hay diferencia entre los grupos)" usando ¿Estadísticas? Entiendo que para tamaños de muestra enormes, incluso pequeñas desviaciones del nulo provocan el rechazo, pero supongamos que tenemos datos ideales y aún necesitamos demostrar que nulo es prácticamente cierto.p>α

  3. ¿Deben los estadísticos insistir siempre en conclusiones matemáticamente correctas como "tener este poder no pudimos detectar un efecto de tamaño significativo"? A los investigadores de otros campos les disgustan mucho tales formulaciones de resultados negativos.

Estaría encantado de escuchar cualquier idea sobre el problema y he leído y entendido las preguntas relacionadas en este sitio web. Hay una respuesta clara a las preguntas 2) -3) desde el punto de vista estadístico, pero me gustaría entender cómo deben responderse estas preguntas en caso de diálogo interdisciplinario.

UPD: Creo que un buen ejemplo de resultado negativo es la primera etapa de los ensayos médicos, la seguridad. ¿Cuándo los científicos pueden decidir que el medicamento es seguro? Supongo que comparan dos grupos y hacen estadísticas sobre estos datos. ¿Hay alguna manera de decir que este medicamento es seguro? Cochrane utiliza con precisión "no se encontraron efectos secundarios", pero los médicos dicen que este medicamento es seguro. Cuando se equilibra la precisión y la simplicidad de la descripción y podemos decir "no hay consecuencias para la salud"?


2
Llama a los resultados que no son estadísticamente significativos un estudio "negativo". Este es un lenguaje defenestrante. Lo revisé para llamarlo como es: no estadísticamente significativo, Ej. P > α . Si me equivoco, por favor dime cómo. De lo contrario, es un lenguaje útil para usted y sus colaboradores para describir un estudio. p > α solo significa que p > α . Si n = 500 , 000 eso puede ser un hallazgo muy "positivo" en algunos aspectos; Tal vez este sea el primer estudio epidemiológico a gran escala que inspeccione la relación de una exposición química y la salud humana, y descubra que, de hecho, es seguro. p>αp>αp>αn=500,000
AdamO

44
Nota al margen: nunca sugeriría usar la naturaleza como una guía sobre cómo usar correctamente las estadísticas.
Cliff AB

1
@AdamO Tengo un ejemplo de dos artículos publicados más o menos al mismo tiempo, en un artículo los autores afirmaron un resultado muy negativo (era su principal conclusión), en el segundo estudio más poderoso, encontraron y tuvieron efecto. Pero, si el primer autor escribiera "tener un poder del 80% con un tamaño de efecto de 1, no podríamos encontrar un efecto significativo", ni siquiera se publicaría en la revista de resultados negativos.
Alemán Demidov

2
pero los no estadísticos me preguntan "¿cómo demuestra resultados negativos?" - Y no sé cómo responder. ¿Qué pasa con la hipótesis utilizada a menudo en los ensayos de equivalencia ? Esto incluye un término adicional como "margen de equivalencia" y puede tener en cuenta la diferencia de medias.
Penguin_Knight

2
Es un error común que Nature Publishing Group está explotando, pero la diferencia en el prestigio entre las revistas es enorme. Dicho esto, por supuesto, los documentos en Nature también pueden tener estadísticas descuidadas.
ameba dice Reinstate Monica

Respuestas:


7

Creo que a veces es apropiado interpretar resultados no estadísticamente significativos en el espíritu de "aceptar la hipótesis nula". De hecho, he visto estudios estadísticamente significativos interpretados de esa manera; el estudio fue demasiado preciso y los resultados fueron consistentes con un rango estrecho de efectos no nulos pero clínicamente insignificantes. Aquí hay una crítica algo ampollosa de un estudio (o, además, su prensa) sobre la relación entre el consumo de chocolate / vino tinto y su efecto "saludable" sobre la diabetes. Las curvas de probabilidad para las distribuciones de resistencia a la insulina por ingesta alta / baja son histéricas.

Si uno puede interpretar los hallazgos como "confirmando H_0" depende de una gran cantidad de factores: la validez del estudio, el poder, la incertidumbre de la estimación y la evidencia previa. Informar el intervalo de confianza (IC) en lugar del valor p es quizás la contribución más útil que puede hacer como estadístico. Les recuerdo a los investigadores y colegas estadísticos que las estadísticas no toman decisiones, la gente sí; omitir los valores p en realidad alienta una discusión más reflexiva de los hallazgos.

El ancho del IC describe una gama de efectos que pueden incluir o no el valor nulo, y pueden incluir o no valores clínicamente significativos como el potencial de salvar vidas. Sin embargo, un IC estrecho confirma un tipo de efecto; o el último tipo que es "significativo" en un sentido verdadero, o el primero que puede ser nulo o algo muy cercano al nulo.

Quizás lo que se necesita es un sentido más amplio de lo que son los "resultados nulos" (y los efectos nulos). Lo que encuentro decepcionante en la colaboración de investigación es cuando los investigadores no pueden establecer a priori a qué rango de efectos están apuntando: si una intervención está destinada a reducir la presión arterial, ¿cuántos mmHg? Si un medicamento está destinado a curar el cáncer, ¿cuántos meses de supervivencia tendrá el paciente? Alguien apasionado por la investigación y "conectado" a su campo y ciencia puede contar los hechos más sorprendentes sobre investigaciones anteriores y lo que se ha hecho.

En su ejemplo, no puedo evitar notar que el valor p de 0.82 es muy cercano al nulo. A partir de eso, todo lo que puedo decir es que el CI se centra en un valor nulo. Lo que no sé es si abarca efectos clínicamente significativos. Si el CI es muy estrecho, la interpretación que dan es, en mi opinión, correcta pero los datos no lo respaldan: sería una edición menor. En contraste, el segundo valor p de 0.22 está relativamente más cerca de su umbral de significancia (cualquiera que sea). Los autores lo interpretan correspondientemente como "no dar ninguna evidencia de diferencia" que sea consistente con una interpretación de tipo "no rechazar H_0". En cuanto a la relevancia del artículo, puedo decir muy poco. ¡Espero que explore la literatura y encuentre discusiones más destacadas sobre los resultados del estudio! En cuanto a los análisis,


1
Fk

pμ=μ0μμ0

¡Por supuesto! (y +1 si eso no estaba claro). Pero en serio, deberías conocer las pruebas de equivalencia: surgió dentro de la epidemiología clínica y la bioestadística (¡una herencia honorable para el campo!), pero es de importancia general para la inferencia frecuente. :)
Alexis

1
@GermanDemidov Tomo una línea dura sobre estos asuntos: creo que los análisis complicados no deberían considerarse si sus efectos no pueden interpretarse. Ellos lo tienen una interpretación. Survival Analysis 2nd ed por Hosmer, Lemeshow, May tiene un capítulo completo (4) dedicado a la interpretación del resultado del modelo de Cox. La deficiencia de las pruebas, como Shapiro, se aborda mejor con tramas (esto a menudo impide la prueba en sí). Las estadísticas de remuestreo proporcionan un medio poderoso para calcular los CI bajo una amplia variedad de condiciones de modelado, pero requieren una teoría sólida para usarse correctamente.
AdamO

3
αH0

12

H0H0HAHA

Sin embargo, nosotros podemos reconocer que hay diferentes tipos de hipótesis nula:

  • H0:θθ0H0:θθ0

  • H0:θ=θ0H0:θθ0=0H0:θ1=θ2H0:θ1θ2=0H0+kH0+:θi=θj;i,j{1,2,k};  and ij

  • H0:|θθ0|ΔH0:|θ1θ2|ΔΔH0±Δ|Δ|kH0:|θi=θj|Δ;i,j{1,2,k};  and ij

[tost]H0+H0+, ¿es porque no hay un efecto verdadero o porque el tamaño de su muestra era demasiado pequeño y su prueba no tiene suficiente potencia? Las pruebas de relevancia abordan estos problemas de frente.

Hay algunas formas de realizar pruebas de equivalencia (ya sea que una se combine o no con pruebas de diferencia):

  • Dos pruebas unilaterales (TOST) traducen la hipótesis nula negativista general expresada anteriormente en dos hipótesis nulas unilaterales específicas:
    • H01:θθ0ΔH01:θ1θ2Δ
    • H02:θθ0ΔH01:θ1θ2Δ
  • Las pruebas de equivalencia más potentes y uniformes , que tienden a ser mucho más sofisticadas aritméticamente que TOST. Wellek es la referencia definitiva para estos.
  • Un enfoque de intervalo de confianza, creo primero motivado por Schuirman, y refinado por otros, como Tryon.


Referencias Reagle, DP y Vinod, HD (2003). Inferencia para la teoría negativista usando regiones de rechazo calculadas numéricamente . Estadística computacional y análisis de datos , 42 (3): 491–512.

Schuirmann, DA (1987). Una comparación de los dos procedimientos de pruebas unilaterales y el enfoque de potencia para evaluar la equivalencia de la biodisponibilidad promedio . Revista de farmacocinética y biofarmacéutica , 15 (6): 657-680.

Tryon, WW y Lewis, C. (2008). Un método de intervalo de confianza inferencial para establecer la equivalencia estadística que corrige el factor de reducción de Tryon (2001) . Métodos psicológicos , 13 (3): 272–277.

Tryon, WW y Lewis, C. (2009). Evaluación de proporciones independientes para diferencia estadística, equivalencia, indeterminación y diferencia trivial utilizando intervalos de confianza inferenciales . Journal of Educational and Behavioral Statistics , 34 (2): 171-189.

Wellek, S. (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman and Hall / CRC Press, segunda edición.


1
Quien me haya votado en contra debe intensificar sus comentarios sobre por qué: debe quedar claro que proporciono respuestas detalladas y que respondo a los comentarios.
Alexis

9

Se refiere a la práctica de inferencia estándar que se enseña en los cursos de estadística:

  1. H0,Ha
  2. α
  3. α
  4. H0HaH0

Esto está bien, y se usa en la práctica. Incluso me aventuraría a adivinar que este procedimiento podría ser obligatorio en algunas industrias reguladas como la farmacéutica.

Sin embargo, esta no es la única forma en que las estadísticas y la inferencia se aplican en la investigación y la práctica. Por ejemplo, eche un vistazo a este documento : "Observación de una nueva partícula en la búsqueda del bosón de Higgs modelo estándar con el detector ATLAS en el LHC". El documento fue el primero en presentar la evidencia de la existencia del bosón de Higgs, en el llamado experimento ATLAS. También fue uno de esos artículos donde la lista de autores es tan larga como su contenido real :)

  • El periódico tampoco menciona H0 0 ni Hun. Se utiliza el término "hipótesis", y se podría adivinar cuál era suH0 0 leyendo el texto
  • Usan el término "significado", pero no como αumbral de significancia en la inferencia "estándar". Simplemente expresan la distancia en desviaciones estándar, por ejemplo, "las significaciones locales observadas para mH = 125 GeV son 2.7σ"
  • presentan valores p "en bruto" y no los ejecutan a través de comparaciones "rechazar / no rechazar" con niveles de significación α, como escribí antes, ni siquiera usan este último
  • presentan intervalos de confianza a niveles de confianza habituales, como el 95%

Así es como se formula la conclusión: "Estos resultados proporcionan evidencia concluyente para el descubrimiento de una nueva partícula con masa 126.0 ± 0.4 (stat) ± 0.4 (sys) GeV". Las palabras "stat" se refieren a estadísticas y "sys" a incertidumbres sistemáticas.

Entonces, como puede ver, no todos hacen el procedimiento de cuatro pasos que describí al comienzo de esta respuesta. Aquí, los investigadores muestran el valor p sin preestablecer el umbral, al contrario de lo que se enseña en las clases de estadística. En segundo lugar, no hacen baile "rechazar / no rechazar", al menos formalmente. Van al grano y dicen "aquí está el valor p, y es por eso que decimos que encontramos una nueva partícula con una masa de 126 GeV".

Nota IMPORTANTE

Los autores del artículo de Higgs aún no declararon el bosón de Higgs. Solo afirmaron que se encontró la nueva partícula y que algunas de sus propiedades, como una masa, son consistentes con el bosón de Higgs.

Tomó un par de años reunir evidencia adicional antes de que se estableciera que la partícula es de hecho el bosón de Higgs. Vea esta publicación de blog con una discusión temprana de resultados. Los físicos verificaron diferentes propiedades como el giro cero. Y aunque la evidencia se reunió en algún momento, el CERN declaró que la partícula es el bosón de Higgs.

¿Porque es esto importante? Porque es imposible trivializar el proceso de descubrimiento científico a un procedimiento rígido de inferencia estadística. La inferencia estadística es solo una herramienta utilizada.

Cuando el CERN estaba buscando esta partícula, el foco estaba en encontrarla primero. Fue el objetivo final. El físico tenía una idea de dónde mirar. Una vez que encontraron un candidato, se centraron en demostrar que era el indicado. Finalmente, la totalidad de la evidencia, ni un solo experimento con valor p y significado, convenció a todos de que encontramos la partícula. Incluya aquí todos los conocimientos previos y el modelo estándar . Esto no es solo una inferencia estadística, el método científico es más amplio que eso.


wow, tu respuesta es genial! Este es un muy buen ejemplo. ¡Espero que en un máximo de 10 años los científicos de la vida también lleguen a este estilo de informe!
Alemán Demidov

5

Hay maneras de abordar esto que no dependen de los cálculos de potencia (ver Wellek, 2010). En particular, también puede probar si rechaza la nula de que el efecto es de una magnitud significativa a priori .

Daniël Lakens aboga en esta situación por las pruebas de equivalencia. Lakens en particular usa " TOST " (dos pruebas unilaterales) para las comparaciones medias, pero hay otras formas de llegar a la misma idea.

En TOST, prueba un nulo compuesto: la hipótesis nula unilateral de que su efecto es más negativo que la diferencia de interés negativa más pequeña y el nulo de que su efecto es más positivo que la diferencia de interés positiva más pequeña. Si rechaza ambos, puede afirmar que no hay una diferencia significativa. Tenga en cuenta que esto puede suceder incluso si el efecto es significativamente diferente de cero, pero en ningún caso requiere endosar el valor nulo.

Lakens, D. (2017). Pruebas de equivalencia: una guía práctica para pruebas t , correlaciones y metanálisis . Ciencias sociales, psicológicas y de la personalidad , 8 (4), 355-362.

Wellek, S. (2010). Prueba de hipótesis estadísticas de equivalencia y no inferioridad . Chapman and Hall / CRC Press, segunda edición.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.