Pruebas de dos colas ... Simplemente no estoy convencido. ¿Cuál es el punto de?


58

El siguiente extracto es de la entrada, ¿Cuáles son las diferencias entre las pruebas de una y dos colas? , en el sitio de ayuda de estadísticas de UCLA.

... considere las consecuencias de perder un efecto en la otra dirección. Imagine que ha desarrollado un nuevo medicamento que cree que es una mejora con respecto a un medicamento existente. Desea maximizar su capacidad para detectar la mejora, por lo que opta por una prueba de una cola. Al hacerlo, no prueba la posibilidad de que el nuevo medicamento sea menos efectivo que el medicamento existente.

Después de aprender los conceptos básicos absolutos de las pruebas de hipótesis y llegar a la parte sobre las pruebas de una o dos colas ... Entiendo las matemáticas básicas y la mayor capacidad de detección de las pruebas de una cola, etc. Pero no puedo entenderlo. alrededor de una cosa ... ¿Cuál es el punto? Realmente no entiendo por qué debería dividir su alfa entre los dos extremos cuando el resultado de la muestra solo puede estar en uno u otro, o en ninguno.

Tome el escenario de ejemplo del texto citado arriba. ¿Cómo podría "no probar" un resultado en la dirección opuesta? Tienes tu media de muestra. Tienes tu media de población. La aritmética simple te dice cuál es más alto. ¿Qué hay para probar, o no probar, en la dirección opuesta? ¿Qué te detiene al comenzar de cero con la hipótesis opuesta si ves claramente que la media de la muestra está muy lejos en la otra dirección?

Otra cita de la misma página:

No es apropiado elegir una prueba de una cola después de ejecutar una prueba de dos colas que no pudo rechazar la hipótesis nula, no importa cuán "cercana" a significativa sea la prueba de dos colas.

Supongo que esto también se aplica al cambio de polaridad de su prueba de una cola. Pero, ¿cómo es este resultado "alterado" menos válido que si simplemente hubiera elegido la prueba de una cola correcta en primer lugar?

Claramente me estoy perdiendo una gran parte de la imagen aquí. Todo parece demasiado arbitrario. Lo que es, supongo, en el sentido de que lo que denota "estadísticamente significativo" - 95%, 99%, 99.9% ... es arbitrario para empezar.


18
Esto me parece una muy buena pregunta, +1.
gung - Restablece a Monica

55
Si bien es absolutamente claro que debe diseñar su experimento y sus pruebas antes de recopilar datos, encuentro su ejemplo sobre medicamentos bastante intrigante dado el hecho de que los nuevos medicamentos a menudo se prueban con una prueba unilateral sin mucha protesta .
P-Gn

3
@ user1735003, un artículo irónico que aparece considerando que muchos ensayos de regulación de humor / comportamiento están siendo objeto de un escrutinio cada vez mayor por sesgos de los observadores. Un interesante Cochrane sobre Ritalin aquí . "La supuesta superioridad del placebo" es lo que cualquier investigador llamaría "daño", por lo que no me parece inconcebible en lo más mínimo. Pero en estos ensayos, si los estudios se detienen por daño, la señal proviene de eventos adversos.
AdamO

10
"Tienes la media de tu muestra. Tienes la media de tu población ... ¿Qué te detiene comenzando desde cero con la hipótesis opuesta si ves claramente que la media de la muestra está muy lejos en la otra dirección?" . No, el punto principal de la prueba de hipótesis es que no tiene la media de la población, y está utilizando la media de la muestra para probar una suposición sobre la media de la población (la hipótesis nula). Por lo tanto, no hay "ver claramente que la media de la muestra está muy lejos" , porque es precisamente lo que está probando, no un hecho.
ESTADÍSTICAS

1
El problema es que a menudo no conoce la polaridad, por lo que debe ejecutar la prueba de dos colas. imagine conectar un voltímetro a la fuente de alimentación de CC cuando no sabe qué enchufe es POSITIVO
Aksakal

Respuestas:


45

Piense en los datos como la punta del iceberg: todo lo que puede ver sobre el agua es la punta del iceberg, pero en realidad le interesa aprender algo sobre todo el iceberg.

Los estadísticos, científicos de datos y otras personas que trabajan con datos tienen cuidado de no dejar que lo que ven por encima de la línea de flotación influya y sesgue su evaluación de lo que está oculto debajo de la línea de flotación. Por esta razón, en una situación de prueba de hipótesis, tienden a formular sus hipótesis nulas y alternativas antes de ver la punta del iceberg, en función de sus expectativas (o falta de ellas) de lo que podría suceder si pudieran ver el iceberg en su totalidad .

Mirar los datos para formular sus hipótesis es una mala práctica y debe evitarse: es como poner el carro delante del caballo. Recuerde que los datos provienen de una sola muestra seleccionada (con suerte utilizando un mecanismo de selección aleatoria) de la población objetivo / universo de interés. La muestra tiene sus propias idiosincrasias, que pueden o no reflejar la población subyacente. ¿Por qué querrías que tus hipótesis reflejen una porción estrecha de la población en lugar de toda la población?

Otra forma de pensar en esto es que, cada vez que selecciona una muestra de su población objetivo (utilizando un mecanismo de selección aleatorio), la muestra arrojará datos diferentes. Si usa los datos (¡lo cual no debería hacer!) Para guiar su especificación de las hipótesis nula y alternativa, sus hipótesis estarán en todo el mapa, esencialmente impulsadas por las características idiosincrásicas de cada muestra. Por supuesto, en la práctica solo extraemos una muestra, pero sería un pensamiento muy inquietante saber que si alguien más realizara el mismo estudio con una muestra diferente del mismo tamaño, tendrían que cambiar sus hipótesis para reflejar las realidades de su muestra

Uno de mis profesores de posgrado solía tener un dicho muy sabio: "No nos importa la muestra, excepto que nos dice algo sobre la población" . Queremos formular nuestras hipótesis para aprender algo sobre la población objetivo, no sobre la muestra que seleccionamos de esa población.


1
@ subhashc.davar: Solo porque no veas la relevancia de mi respuesta, no significa que alguien más no lo hará. Tenga en cuenta que las respuestas son para toda la comunidad, no solo para la persona que hizo la pregunta. Estaré encantado de eliminar mi respuesta si te sientes firmemente acerca de esto.
Isabella Ghement

77
@ subhashc.davar Un ejemplo puede ayudar: supongamos que prueba si un refrigerio afecta el rendimiento. Ejecutas el experimento y encuentras una ligera ganancia en los bocadillos. ¡Excelente! Realice una prueba de una cola para ver si meriendas> no meriendas. Problema: ¿qué hubieras hecho si hubieras sacado una muestra donde los bocadillos obtuvieron peores resultados? ¿Habrías hecho una prueba de una cola para meriendas <no meriendas? Si es así, está cometiendo un error y dejando que las idiosincrasias de muestra guíen sus pruebas.
RM

21
Una anécdota de mi profesor: "Visitamos a la hija recién nacida de una amiga en una sala de maternidad. 20 niños y 18 de los 20 llevaban sombreros rosados. Así que hice lo que cualquier estadístico haría: calculé un valor p para el género, de hecho 50 / 50. Fue muy significativo estadísticamente. Entonces, ¿quién quiere escribir este documento conmigo? ¿Nadie? ¿Por qué? No se pueden usar datos que generaron una hipótesis para probar una hipótesis ".
AdamO

44
@ AdamO Su comentario me pareció una mejor explicación que la respuesta en sí. Reformularía la última oración como 'No deberías usar los mismos datos con los que generaste tu hipótesis para probar también tu hipótesis'. Una implicación relacionada es que está bien cambiar su hipótesis en función del resultado de cualquier prueba que haya elegido previamente. Pero luego debe probar su nueva hipótesis con nuevos datos.
Kenny Evitt

3
@KennyEvitt sí exactamente correcto. Los hallazgos incidentales son importantes y deben informarse, pero no deben venderse como hipótesis preespecificadas.
AdamO

18

Creo que al considerar su pregunta, ayuda si intenta tener en cuenta el objetivo / puntos de venta de las pruebas de significación de hipótesis nulas (NHST); es solo un paradigma (aunque muy popular) para la inferencia estadística, y los otros también tienen sus propias fortalezas (por ejemplo, vea aquí para una discusión sobre NHST en relación con la inferencia bayesiana). ¿Cuál es el gran beneficio de NHST ?: Control de errores a largo plazo . Si sigue las reglas de NHST (y a veces eso es muy importante), entonces debe tener una buena idea de la probabilidad de que se equivoque con las inferencias que hace, a la larga.

Una de las reglas perspicaces de NHST es que, sin más alteraciones en su procedimiento de prueba, solo puede echar un vistazo a su prueba de interés. Los investigadores en la práctica a menudo ignoran (o no conocen) esta regla (ver Simmons et al., 2012), realizando múltiples pruebas después de agregar ondas de datos, verificando sup-valores después de agregar / eliminar variables a sus modelos, etc. El problema con esto es que los investigadores rara vez son neutrales con respecto al resultado de NHST; son muy conscientes de que es más probable que se publiquen resultados significativos que resultados no significativos (por razones equivocadas y legítimas; Rosenthal, 1979). Por lo tanto, los investigadores a menudo están motivados para agregar datos / modificar modelos / seleccionar valores atípicos y probar repetidamente hasta que "descubran" un efecto significativo (ver John et al., 2011, una buena introducción).

Las prácticas anteriores crean un problema contraintuitivo, descrito muy bien en Dienes (2008): si los investigadores seguirán ajustando su muestra / diseño / modelos hasta que se alcance la importancia, entonces sus tasas de error a largo plazo deseadas de resultados falsos positivos (a menudo ) y los resultados falsos negativos (a menudo ) se acercarán a 1.0 y 0.0, respectivamente (es decir, siempre rechazará , tanto cuando sea falso como cuando sea verdadero).α=.05β=.20H0

En el contexto de sus preguntas específicas, los investigadores usan las pruebas de dos colas por defecto cuando no quieren hacer predicciones particulares con respecto a la dirección del efecto. Si están equivocados en su conjetura y ejecutan una prueba de una cola en la dirección del efecto, su largo plazo se inflará. Si miran estadísticas descriptivas y ejecutan una prueba de una cola basada en su atención a la tendencia, su largo plazo se inflará. Puede pensar que este no es un gran problema, en la práctica, que los valores pierden su significado a largo plazo, pero si no retienen su significado, surge la pregunta de por qué está utilizando un enfoque de inferencia que prioriza el control de errores a largo plazo.α pααp

Por último (y como una cuestión de preferencia personal), tendría menos problemas si primero realizara una prueba de dos colas, la encontrara no significativa, luego hiciera la prueba de una cola en la dirección que implicaba la primera prueba, y descubrió que es significativo si (y solo si) realizó una replicación confirmatoria estricta de ese efecto en otra muestra, y publicó la replicación en el mismo documento. El análisis exploratorio de datos, con una práctica de análisis flexible que infla la tasa de error, está bien, siempre que pueda replicar su efecto en una nueva muestra sin esa misma flexibilidad analítica.

Referencias

Dienes, Z. (2008). Entender la psicología como ciencia: una introducción a la inferencia científica y estadística . Palgrave Macmillan.

John, LK, Loewenstein, G. y Prelec, D. (2012). Medición de la prevalencia de prácticas de investigación cuestionables con incentivos para decir la verdad. Ciencia psicológica , 23 (5), 524-532.

Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín psicológico , 86 (3), 638.

Simmons, JP, Nelson, LD y Simonsohn, U. (2011). Psicología falsa positiva: la flexibilidad no revelada en la recopilación y análisis de datos permite presentar cualquier cosa como significativa. Ciencia psicológica , 22 (11), 1359-1366.


Muy buena respuesta. Me ayudó a reunir algunas inquietudes que tuve durante mi reciente análisis de los trabajos de investigación (como un laico), aparentemente confirmando la idea de que los valores p de una cola solo pueden ser "confiables" si tiene razones para confiar en lo "negativo". la correlación "dirección es falsa.
Venryx

10

Desafortunadamente, el ejemplo motivador del desarrollo de drogas no es bueno, ya que no es lo que hacemos para desarrollar drogas. Utilizamos reglas diferentes y más estrictas para detener el estudio si las tendencias están del lado del daño. Esto es para la seguridad de los pacientes y también porque es poco probable que el medicamento oscile mágicamente en la dirección de un beneficio significativo.

Entonces, ¿ por qué hacer dos pruebas de cola ? (cuando en la mayoría de los casos tenemos una noción a priori de la posible dirección del efecto que estamos tratando de modelar)

La hipótesis nula debería tener cierta semejanza con la creencia en el sentido de ser plausible, informado y justificado. En la mayoría de los casos, las personas coinciden en que un "resultado poco interesante" es cuando hay un efecto 0, mientras que un efecto negativo o positivo es de igual interés. Es muy difícil articular una hipótesis nula compuesta, por ejemplo, el caso en el que sabemos que la estadística podría ser igual omenos de una cierta cantidad. Uno debe ser muy explícito acerca de una hipótesis nula para dar sentido a sus hallazgos científicos. Vale la pena señalar que la forma en que se realiza una prueba de hipótesis compuesta es que la estadística bajo la hipótesis nula asume el valor más consistente dentro del rango de los datos observados. Entonces, si el efecto está en la dirección positiva como se esperaba, el valor nulo se considera 0 de todos modos, y hemos discutido innecesariamente.

¡Una prueba de dos colas equivale a realizar dos pruebas unilaterales con control para comparaciones múltiples! La prueba de dos colas en realidad se valora en parte porque termina siendo más conservadora a largo plazo. Cuando tenemos una buena creencia sobre la dirección del efecto, las dos pruebas de cola producirán falsos positivos la mitad de las veces con muy poco efecto general sobre el poder.

En el caso de evaluar un tratamiento en un ensayo controlado aleatorio, si intentara venderme una prueba unilateral, lo detendría para preguntar: "Bueno, espere, ¿por qué creemos que el tratamiento es realmente dañino? ¿Existe evidencia? para apoyar esto? ¿Existe incluso un equilibrio [la capacidad de demostrar un efecto beneficioso]? " La inconsistencia lógica detrás de la prueba unilateral cuestiona toda la investigación. Si realmente no se sabe nada, cualquier valor que no sea 0 se considera interesante y la prueba de dos colas no es solo una buena idea, es necesaria.


8

Una forma de abordarlo es olvidarse temporalmente de las pruebas de hipótesis y pensar en intervalos de confianza. Las pruebas unilaterales corresponden a intervalos de confianza unilaterales y las pruebas bilaterales corresponden a intervalos de confianza bilaterales.

Suponga que desea estimar la media de una población. Naturalmente, toma una muestra y calcula una media muestral. No hay ninguna razón para tomar una estimación puntual al valor nominal, por lo que expresa su respuesta en términos de un intervalo en el que está razonablemente seguro de que contiene la media real. ¿Qué tipo de intervalo eliges? Un intervalo de dos lados es, con mucho, la opción más natural. Un intervalo unilateral solo tiene sentido cuando simplemente no le importa encontrar un límite superior o un límite inferior de su estimación (porque cree que ya conoce un límite útil en una dirección). ¿Con qué frecuencia estás realmente que seguro acerca de la situación?

Quizás cambiar la pregunta a intervalos de confianza realmente no lo concreta, pero es metodológicamente inconsistente preferir las pruebas de una cola, pero los intervalos de confianza de dos lados.


4

Después de aprender los conceptos básicos absolutos de las pruebas de hipótesis y llegar a la parte sobre las pruebas de una o dos colas ... Entiendo las matemáticas básicas y la mayor capacidad de detección de las pruebas de una cola, etc. Pero no puedo entenderlo. alrededor de una cosa ... ¿Cuál es el punto? Realmente no entiendo por qué debería dividir su alfa entre los dos extremos cuando el resultado de la muestra solo puede estar en uno u otro, o en ninguno.

El problema es que no sabes la media de la población. Nunca me he encontrado con un escenario del mundo real que conozca el verdadero significado de la población.

Tome el escenario de ejemplo del texto citado arriba. ¿Cómo podría "no probar" un resultado en la dirección opuesta? Tienes tu media de muestra. Tienes tu media de población. La aritmética simple te dice cuál es más alto. ¿Qué hay para probar, o no probar, en la dirección opuesta? ¿Qué te detiene al comenzar de cero con la hipótesis opuesta si ves claramente que la media de la muestra está muy lejos en la otra dirección?

Leí tu párrafo varias veces, pero todavía no estoy seguro de tus argumentos. ¿Quieres reformularlo? No puede "probar" si sus datos no lo llevan a las regiones críticas elegidas.

Supongo que esto también se aplica al cambio de polaridad de su prueba de una cola. Pero, ¿cómo es este resultado "alterado" menos válido que si simplemente hubiera elegido la prueba de una cola correcta en primer lugar?

La cita es correcta porque piratear un valor p es inapropiado. ¿Cuánto sabemos sobre p-hacking "en la naturaleza"? Tiene mas detalles.

Claramente me estoy perdiendo una gran parte de la imagen aquí. Todo parece demasiado arbitrario. Lo que es, supongo, en el sentido de que lo que denota "estadísticamente significativo" - 95%, 99%, 99.9% ... es arbitrario para empezar. ¿Ayuda?

Es arbitrario. Es por eso que los científicos de datos generalmente informan la magnitud del valor p en sí mismo (no solo significativo o insignificante), y también el tamaño de los efectos.


Para ser claros, no estoy tratando de desafiar los fundamentos mismos de la inferencia estadística. Como dije, acabo de aprender los conceptos básicos y tengo problemas para comprender cómo se pueden pasar por alto cualquier posible hallazgo al no usar la prueba correcta.
FromTheAshes

Digamos que tu amigo, Joe, inventa un nuevo producto que, según él, mejora en gran medida el crecimiento de las plantas. Intrigado, diseña un estudio sólido con un grupo de control y un grupo de tratamiento. Tu nula hip. es que no habrá cambios en el crecimiento, su hip alternativa. es que el spray mágico de Joe aumenta significativamente el crecimiento, por lo que una prueba de una cola. 2 semanas después, haces tus observaciones finales y analizas los resultados. El crecimiento medio del grupo de tratamiento es superior a 5 errores estándar POR DEBAJO de los del control. ¿Cómo es este hallazgo muy significativo menos obvio o válido debido a su elección de prueba?
FromTheAshes

2
Si le pido que llame cara o cruz para lanzar una moneda, la probabilidad de que prediga el resultado es 50/50 (suponiendo una moneda equilibrada y un lanzador honesto). Sin embargo, si lanzo la moneda primero y le dejo mirarla y luego hacer su predicción, ya no será 50/50. Si está realizando una prueba de una cola con un nivel alfa de .01 pero luego cambia la dirección de la prueba después de ver los resultados porque p <.01 en la otra dirección, su riesgo de un error Tipo I no es largo .01 Pero mucho más alto. Tenga en cuenta que el valor p observado y la tasa de error Tipo I no son lo mismo.
dbwilson

@FromTheAshes no hay nada de malo en tratar de desafiar los fundamentos mismos. La prueba de hipótesis estadísticas no es inútil, pero contiene fallas lógicas masivas, ¡y es absolutamente razonable desafiarlas!
Flounderer

3

Bueno, toda diferencia se basa en la pregunta que desea responder. Si la pregunta es: "¿Es un grupo de valores más grande que el otro?" puedes usar una prueba de una cola. Para responder a la pregunta: "¿Son estos grupos de valores diferentes?" Utiliza la prueba de dos colas. Tenga en cuenta que un conjunto de datos puede ser estadísticamente más alto que otro, pero no estadísticamente diferente ... y eso es estadística.


1
'Si la pregunta es: "¿Es un grupo de valores más grande que el otro?" puedes usar una prueba de una cola '. Más precisamente, si la pregunta es "¿Es * este grupo en particular más grande que los otros", entonces debe usar una prueba de dos colas.
Acumulación

Cabe señalar que está implícito que si usted hace esa pregunta, "Y por cierto, si parece que el otro grupo es realmente más grande, entonces no me importa". Si veas lo contrario de lo que esperas y luego cambias la dirección de la prueba de hipótesis, entonces solo te estabas mintiendo todo el tiempo y, para empezar, deberías haber hecho una prueba de dos colas.
Dason

2

Pero, ¿cómo es este resultado "alterado" menos válido que si simplemente hubiera elegido la prueba de una cola correcta en primer lugar?

El valor alfa es la probabilidad de que rechazará el nulo, dado que el nulo es verdadero. Suponga que su valor nulo es que la media muestral normalmente se distribuye con media cero. Si P (media muestral> 1 | H0) = .05, entonces la regla "Recoger una muestra y rechazar el valor nulo si la media muestral es mayor que 1" tiene una probabilidad, dado que el valor nulo es verdadero, del 5% de rechazando el nulo. La regla "Recoger una muestra, y si la media de la muestra es positiva, rechazar el valor nulo si la media de la muestra es mayor que 1, y si la media de la muestra es negativa, rechazar el valor nulo si la media de la muestra es menor que 1" tiene un probabilidad, dado que el nulo es verdadero, del 10% de rechazar el nulo. Entonces, la primera regla tiene un alfa del 5%, y la segunda regla tiene un alfa del 10%. Si comienzas con una prueba de dos colas, y luego cambiarlo a una prueba de una cola basada en los datos, luego está siguiendo la segunda regla, por lo que sería incorrecto informar su alfa como 5%. El valor alfa depende no solo de cuáles son los datos, sino de qué reglas está siguiendo para analizarlos. Si se pregunta por qué usar una métrica que tenga esta propiedad, en lugar de algo que depende solo de los datos, esa es una pregunta más complicada.


2

Sobre el 2º punto

No es apropiado elegir una prueba de una cola después de ejecutar una prueba de dos colas que no pudo rechazar la hipótesis nula, no importa cuán "cercana" a significativa sea la prueba de dos colas.

tenemos que, si el valor nulo es verdadero, la primera prueba de dos colas rechaza falsamente con probabilidad , pero la unilateral también puede rechazar en la segunda etapa.α

Por lo tanto, la probabilidad general de rechazo excederá , y ya no está probando en el nivel que cree que ya está probando: con mayor frecuencia obtiene rechazos falsos que en de los casos en los que se aplica la estrategia hipótesis nulas verdaderas.αα100%

En general, buscamos que podemos expresar como Los dos eventos en la unión son disjuntos, por lo que buscamos Para el segundo término, hay una probabilidad de masa entre los cuantiles superiores y (es decir, los puntos de rechazo de pruebas de un solo lado y de dos lados), que es la probabilidad conjunta de que la prueba de dos lados no rechace pero la de un solo lado lo haga. Por lo tanto,

P(two-sided rejects or one-sided does, but two sided doesn't)
P(two-sided rejects(one-sided doestwo sided doesn't))
P(two-sided rejects)+P(one-sided doestwo sided doesn't)
α/21α1α/2
P(one-sided doestwo sided doesn't)=α/2
modo que la probabilidad general de rechazo de esta estrategia es Efectivamente, solo sumamos las probabilidades de que la estadística de prueba aterrice a la izquierda del cuantificador , entre los cuantiles superiores y o a la derecha del -cuantil.
α+α2>α
α/21α1α/21α/2

Aquí hay una pequeña ilustración numérica:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

Esta es solo una forma arbitraria de verlo: ¿para qué se utiliza una prueba estadística? Probablemente, la razón más frecuente para realizar una prueba es porque desea convencer a las personas (es decir, editores, revisores, lectores, público) de que sus resultados son "lo suficientemente aleatorias" para ser notables. Y de alguna manera llegamos a la conclusión de que es la verdad arbitraria, pero universal.p<α=0.05

Por cualquier otra razón sensata para realizar las pruebas, nunca se conformaría con un fijo de , pero variaría su de un caso a otro, dependiendo de la importancia de las consecuencias que extraiga de la prueba.α0.05α

Volviendo a convencer a la gente, que algo está "lo suficientemente lejos de ser aleatorio" para cumplir con un criterio universal de notable. Tenemos un criterio insensible, pero universalmente aceptado, que creemos que se considera "no aleatorio" a para las pruebas a dos carasα=0.05 . Un criterio equivalente sería mirar los datos, decidir qué forma probar y dibujar la línea en . El segundo es equivalente al primero, pero no es con lo que históricamente nos hemos asentado.α=0.025

Una vez que comience a hacer pruebas unilaterales con , sospechará de un comportamiento indebido, de pescar en busca de importancia. ¡No hagas eso si quieres convencer a la gente!α=0.05


Luego, por supuesto, existe esta cosa llamada grado de libertad de los investigadores . Puede encontrar importancia en cualquier tipo de datos, si tiene suficientes datos y es libre de probarlos de todas las formas que desee. Es por eso que debe decidir sobre la prueba que realiza antes de ver los datos. Todo lo demás conduce a resultados de prueba irreproducibles. Aconsejo ir a YouTube y mirar Andrew Gelmans hablar "Crímenes en los datos para obtener más información al respecto.


1
Hmm, la hipótesis nula no es que los resultados sean aleatorios. Esto sería confuso para los médicos y científicos que ven mucho los resultados de su trabajo como un resultado fijo.
AdamO

1
Su punto "Una vez que comience a hacer pruebas unilaterales con ..." es importante. La razón por la que es tan común es que la experiencia práctica de RA Fisher en Rothamsted fue que tener más de desviaciones estándar del valor esperado generalmente valía la pena investigar más, y de esto eligió una prueba de dos colas del como regla general. , No al revés. Por lo tanto, el equivalente de una cola seríaα=0.050.0525%2.5%
Henry

1

A primera vista, ninguna de estas afirmaciones afirma que una prueba de dos lados es "superior" a un estudio de un solo lado. Simplemente debe existir una conexión lógica entre la hipótesis de investigación que se está probando y la inferencia estadística que se está probando.

Por ejemplo:

... considere las consecuencias de perder un efecto en la otra dirección. Imagine que ha desarrollado un nuevo medicamento que cree que es una mejora con respecto a un medicamento existente. Desea maximizar la capacidad de detectar la mejora, por lo que opta por una prueba de una cola. Al hacerlo, no prueba la posibilidad de que el nuevo medicamento sea menos efectivo que el medicamento existente.

En primer lugar, este es un estudio de drogas. Por lo tanto, ser incorrecto en la dirección opuesta tiene un significado social más allá del marco de las estadísticas. Entonces, como muchos han dicho, la salud no es la mejor para hacer generalizaciones.

En la cita anterior, parece tratarse de probar un medicamento cuando ya existe otro. Para mí, esto implica que se supone que su medicamento ya es efectivo. La declaración se refiere a la comparación de dos medicamentos efectivos a partir de entonces. ¿Al comparar estas distribuciones si está descuidando a un lado de la población en aras de mejorar sus resultados comparativos? No es solo una conclusión sesgada, sino que la comparación ya no es válida para justificar: estás comparando manzanas con naranjas.

Del mismo modo, es muy posible que haya estimaciones puntuales que, en aras de la inferencia estadística, no hayan hecho ninguna diferencia en la conclusión, pero son muy importantes para la sociedad. Esto se debe a que nuestra muestra representa la vida de las personas: algo que no puede "volver a ocurrir" y es invaluable.

Alternativamente, la afirmación implica que el investigador tiene un incentivo: "desea maximizar su capacidad para detectar la mejora ..." Esta noción no es trivial para el caso de ser aislado como un mal protocolo.

No es apropiado elegir una prueba de una cola después de ejecutar una prueba de dos colas que no pudo rechazar la hipótesis nula, no importa cuán "cercana" a significativa sea la prueba de dos colas.

Una vez más, esto implica que el investigador está 'cambiando' su prueba: de un lado a otro. Esto nunca es apropiado. Es imperativo tener un propósito de investigación antes de la prueba. Al omitir siempre la conveniencia de un enfoque de dos lados, los investigadores no logran comprender el fenómeno de manera más rigurosa.

Aquí hay un documento sobre este mismo tema, de hecho, el caso de que las pruebas a dos caras se han usado en exceso.

Culpa el uso excesivo de una prueba de dos lados en la falta de un:

distinción clara y un vínculo lógico entre la hipótesis de investigación y su hipótesis estadística

Toma la posición y la postura de que los investigadores:

puede no ser consciente de la diferencia entre los dos modos expresivos o del flujo lógico en el que la hipótesis de investigación debe traducirse en la hipótesis estadística. Una combinación orientada a la conveniencia de la investigación y las hipótesis estadísticas puede ser la causa del uso excesivo de las pruebas de dos colas, incluso en situaciones donde el uso de las pruebas de dos colas es inapropiado.

lo que se necesita es comprender las estadísticas exactas al interpretar los resultados de las pruebas estadísticas. Ser inexacto bajo el nombre de ser conservador no es recomendable. En ese sentido, los autores piensan que simplemente informar resultados de pruebas como "Se encontró que era estadísticamente significativo con un nivel de significancia de 0.05 (es decir, p <0.05)" no es lo suficientemente bueno.

Aunque la prueba de dos colas es más conservadora en teoría, desacopla el vínculo entre la hipótesis de investigación direccional y su hipótesis estadística, lo que posiblemente conduce a valores de p doblemente inflados.

Los autores también han demostrado que el argumento para encontrar el resultado significativo en la dirección opuesta tiene significado solo en el contexto del descubrimiento más que en el contexto de la
justificación . En el caso de probar la hipótesis de investigación y su teoría subyacente, los investigadores no deben abordar simultáneamente el contexto del descubrimiento y el de la justificación.

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

A menudo se realiza una prueba de significación para la hipótesis nula frente a una hipótesis alternativa . Esto es cuando una cola versus dos colas marcan la diferencia.


  • ¡Para valores p esto (dos o un lado) no importa! El punto es que selecciona un criterio que solo ocurre una fracción del tiempo en que la hipótesis nula es verdadera. Se trata de dos piezas pequeñas de ambas colas, o una pieza grande de una cola, o algo más.α

    La tasa de error tipo I no es diferente para pruebas de uno o dos lados.

  • Por otro lado, por el poder que importa .

    Si su hipótesis alternativa es asimétrica, entonces desearía enfocar el criterio para rechazar la hipótesis nula solo en esta cola / final; de modo que cuando la hipótesis alternativa es verdadera, es menos probable que no rechace ("acepte") la hipótesis nula.

    Si su hipótesis alternativa es simétrica (no le importa colocar más o menos potencia en un lado específico), y la deflexión / efecto en ambos lados es igualmente esperada (o simplemente desconocida / desinformada), entonces es más poderoso usar un prueba de dos lados (no está perdiendo el 50% de potencia para la cola que no está probando y donde cometerá muchos errores de tipo II).

    La tasa de error de tipo II es diferente para pruebas de uno y dos lados y también depende de la hipótesis alternativa.

Se está volviendo un poco más como un concepto bayesiano ahora cuando comenzamos a preconceptos sobre si esperamos o no que un efecto caiga en un lado o en ambos lados, y cuando deseamos usar una prueba (para ver si podemos falsificar un hipótesis nula) para 'confirmar' o hacer más probable algo como un efecto.


0

Entonces, un intento de respuesta más:

Supongo que si tomar una o dos colas depende completamente de la hipótesis alternativa .

Considere el siguiente ejemplo de prueba de media en una prueba t:

H0:μ=0

Ha:μ0

Ahora, si observa una media muestral muy negativa o una media muestral muy positiva, es poco probable que su hipótesis sea cierta.

Por otro lado, estará dispuesto a aceptar su hipótesis si la media de su muestra es cercana a ya sea negativa o positiva . Ahora debe elegir el intervalo en el que, si su media muestral cayera, no rechazaría su hipótesis nula. Obviamente, elegirías un intervalo que tenga lados negativos y positivos alrededor de . Entonces eliges la prueba de dos lados.0 0

Pero, ¿qué sucede si no desea probar , sino ? Ahora, intuitivamente, lo que queremos hacer aquí es que si el valor de la media muestral es muy negativo, entonces definitivamente podemos rechazar nuestro valor nulo. Por lo tanto, desearíamos rechazar nulo solo para valores negativos lejanos de la media muestral.μ=0μ0

¡Pero espera! Si esa es mi hipótesis nula, ¿cómo establecería mi distribución nula? La distribución nula de la media muestral se conoce para algún valor supuesto del parámetro de población (aquí ). Pero bajo nulo actual puede tomar muchos valores.0

Digamos que podemos hacer infinitas hipótesis nulas. Cada uno por asumir un valor positivo de . Pero piense en esto: en nuestra primera hipótesis de , si solo rechazamos nulo al observar una media de muestra muy negativa, entonces cada hipótesis siguiente con también lo rechazaría. Porque para ellos, la media muestral está aún más lejos del parámetro de población. Así que, básicamente, todo lo que necesitamos hacer es hacer una hipótesis pero con una sola cola .μH0:μ=0H0:μ>0

Entonces su solución se convierte en:

H0:μ=0

Ha:μ<0

El mejor ejemplo es la prueba de Dickey-Fuller para la estacionariedad.

Espero que esto ayude. (Quería incluir diagramas pero responder desde el móvil).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.