Interpretación de resultados no significativos como "tendencias"

16

Recientemente, dos compañeros de trabajo diferentes han utilizado una especie de argumento sobre las diferencias entre las condiciones que me parece incorrecto. Ambos compañeros de trabajo usan estadísticas, pero no son estadísticos. Soy un novato en estadística.

En ambos casos, sostuve que, debido a que no había una diferencia significativa entre dos condiciones en un experimento, era incorrecto hacer una afirmación general sobre estos grupos con respecto a la manipulación. Tenga en cuenta que "hacer un reclamo general" significa algo así como escribir: "El grupo A usó X con más frecuencia que el grupo B".

Mis compañeros de trabajo respondieron: "a pesar de que no hay una diferencia significativa, la tendencia sigue ahí" y "aunque no hay una diferencia significativa, todavía hay una diferencia". Para mí, ambos suenan como una equivocación, es decir, cambiaron el significado de "diferencia" de: "una diferencia que probablemente sea el resultado de algo distinto al azar" (es decir, significación estadística), a "cualquier no -Cero diferencia en la medición entre grupos ".

¿Fue correcta la respuesta de mis compañeros de trabajo? No lo tomé con ellos porque me superaron.

statistical-significance

— amdex
fuente

Encontré estos artículos útiles Todavía no es significativo y marginalmente significativo

— user20637

26

Esta es una gran pregunta; La respuesta depende mucho del contexto.

En general, diría que tiene razón : hacer un reclamo general no calificado como "el grupo A usó X con más frecuencia que el grupo B" es engañoso. Sería mejor decir algo como

en nuestro experimento, el grupo A usó X más a menudo que el grupo B, pero no estamos muy seguros de cómo se desarrollará esto en la población general

o

aunque el grupo A usó X 13% más a menudo que el grupo B en nuestro experimento, nuestra estimación de la diferencia en la población general no está clara : los valores plausibles varían de A usando X 5% con menos frecuencia que el grupo B a A usando X 21% más a menudo que el grupo B

o

el grupo A usó X 13% más a menudo que el grupo B, pero la diferencia no fue estadísticamente significativa (IC del 95%: -5% a 21%; p = 0,75)

Por otro lado: sus compañeros de trabajo tienen razón en que en este experimento en particular , el grupo A usó X con más frecuencia que el grupo B. Sin embargo, las personas rara vez se preocupan por los participantes en un experimento en particular; quieren saber cómo sus resultados se generalizarán a una población más grande, y en este caso la respuesta general es que no puede decir con seguridad si un grupo A seleccionado al azar usará X más o menos a menudo que un grupo B seleccionado al azar.

Si tuviera que elegir hoy si usar el tratamiento A o el tratamiento B para aumentar el uso de X, en ausencia de cualquier otra información o diferencias en los costos, etc., entonces elegir A sería su mejor opción. Pero si quisiera estar seguro de que probablemente estaba haciendo la elección correcta, necesitaría más información.

Tenga en cuenta que usted debe no dice "no hay ninguna diferencia entre el grupo A y el grupo B en su uso de X", o "el grupo A y el grupo B el uso de la misma cantidad X". Esto es cierto para ninguno de los participantes en su experimento (donde A usó X 13% más) o en la población general; en la mayoría de los contextos del mundo real, usted sabe que realmente debe haber algún efecto (no importa cuán leve) sea de A contra B; simplemente no sabes en qué dirección va.

— Ben Bolker
fuente

55

Hermosa respuesta, Ben! Me pregunto si su segunda declaración de ejemplo podría modificarse por claridad para reflejar la esencia de la primera declaración de ejemplo: "aunque el grupo A usó X 13% más a menudo que el grupo B EN NUESTRO EXPERIMENTO, la diferencia EN USO DE X ENTRE GRUPOS EN GENERAL LA POBLACIÓN no estaba clara : el rango plausible DE ESA DIFERENCIA pasó de A usando X 5% con menos frecuencia que el grupo B a A usando X 21% con más frecuencia que el grupo B. "

— Isabella Ghement

3

gracias, parcialmente incorporado (tratando de equilibrar brevedad / claridad y precisión ...)

— Ben Bolker

8

+1 ¡Creo que muchas personas no se dan cuenta de que, en ausencia de evidencia estadística, las diferencias observadas pueden ser lo contrario de lo que sucede con la población!

— Dave

@Dave: incluso si la presencia de "evidencia estadística" (¿valor p estadísticamente significativo?), "Las diferencias observadas pueden muy bien ser lo contrario de lo que está sucediendo con la población"

— boscovich

@boscovich Claro, estaba hablando en absoluto cuando hacemos estadísticas, pero lo considero un valor p insignificante, lo que significa que realmente no tienes idea de lo que está sucediendo con la población. Al menos con un valor p significativo, ha alcanzado un umbral de evidencia establecido para sugerir que sabe algo. Pero definitivamente es posible obtener un valor p significativo cuando se identifica erróneamente la dirección. Ese error debe ocurrir de vez en cuando.

— Dave

3

Esa es una pregunta difícil!

Lo primero es lo primero, cualquier umbral que elija para determinar la significación estadística es arbitrario. El hecho de que la mayoría de las personas use un valor $5\%$ no lo hace más correcto que ningún otro. Entonces, en cierto sentido, debe pensar en la significación estadística como un "espectro" en lugar de un sujeto blanco o negro. $p$

Supongamos que tenemos una hipótesis nula $H_0$ (por ejemplo, los grupos $A$ y $B$ muestran la misma media para la variable $X$ , o la media de la población para la variable $Y$ está por debajo de 5). Puede pensar en la hipótesis nula como la hipótesis de "no tendencia". Recopilamos algunos datos para verificar si podemos refutar $H_0$ (la hipótesis nula nunca es "comprobada"). Con nuestra muestra, hacemos algunas estadísticas y finalmente obtenemos un valor $p$ . En pocas palabras, el valor $p$ es la probabilidad de que el azar puro produzca resultados igualmente (o más) extremos que los que obtuvimos, suponiendo, por supuesto, $H_0$ para ser verdad (es decir, sin tendencia).

Si obtenemos un valor $p$ "bajo" , decimos que el azar rara vez produce resultados como esos, por lo tanto, rechazamos $H_0$ (hay evidencia estadísticamente significativa de que $H_0$ podría ser falso). Si obtenemos un valor $p$ "alto" , es más probable que los resultados sean resultado de la suerte, en lugar de ser una tendencia real. No decimos que $H_0$ es cierto, sino que se deben realizar más estudios para rechazarlo.

$p$ $23\%$ $23\%$ $23\%$ $H_0:=$ $0.5\%$ $p-$

$X$ $\beta$ $H_0:$ $\beta=0$ $\beta \leq 0$

$\beta=0$

$4\%$

Espero que esta explicación demasiado verbal te ayude a ordenar tus ideas. El resumen es que tienes toda la razón! No debemos llenar nuestros informes, ya sea para investigación, negocios o lo que sea, con afirmaciones descabelladas respaldadas por poca evidencia. Si realmente cree que hay una tendencia, pero no alcanzó significación estadística, ¡repita el experimento con más datos!

— David
fuente

1

+1 por señalar que cualquier umbral de significación es arbitrario (y, por implicación, no es posible inferir afirmaciones absolutas sobre la población general a partir de los resultados de una muestra; todo lo que obtienes son mejores probabilidades).

— Peter - Restablece a Monica el

0

Un efecto significativo solo significa que midió una anomalía poco probable (poco probable si la hipótesis nula, ausencia de efecto, fuera cierta). Y como consecuencia, se debe dudar con alta probabilidad (aunque esta probabilidad no es igual al valor p y también depende de creencias previas).

Dependiendo de la calidad del experimento, podría medir el mismo efecto. tamaño del , pero podría no ser una anomalía (no un resultado improbable si la hipótesis nula fuera cierta).

Cuando observa un efecto pero no es significativo, de hecho (el efecto) todavía puede estar allí, pero no es significativo (las mediciones no indican que la hipótesis nula deba ser puesta en duda / rechazada con alta probabilidad). Significa que debe mejorar su experimento, recopilar más datos, para estar más seguro.

Entonces, en lugar del efecto de dicotomía versus ningún efecto, debe ir a las siguientes cuatro categorías:

Imagen de https://en.wikipedia.org/wiki/Equivalence_test que explica los dos procedimientos de prueba t de un solo lado (TOST)

Parece que estás en la categoría D, la prueba no es concluyente. Sus compañeros de trabajo pueden estar equivocados al decir que hay un efecto. Sin embargo, ¡es igualmente incorrecto decir que no hay ningún efecto!

— Sexto Empírico
fuente

p

$p$

@David, estoy completamente de acuerdo con usted en que el valor p es más precisamente una medida de "la probabilidad de que hagamos un error condicional de que la hipótesis nula sea verdadera" (o la probabilidad de ver resultados tan extremos), y no expresa directamente "la probabilidad de que la hipótesis nula sea incorrecta". Sin embargo, creo que el valor p no está destinado a ser utilizado en este sentido "oficial". El valor p se usa para expresar dudas en la hipótesis nula, para expresar que los resultados indican una anomalía y las anomalías deberían hacernos dudar de la nula ...

— Sextus Empiricus

.... en su caso, cuando demuestra que desafía el efecto nulo (desafíe la idea de que uno no puede predecir las monedas) al proporcionar un caso raro (al igual que la mujer que prueba el té), entonces deberíamos tener dudas en el nulo hipótesis. En la práctica, tendríamos que establecer un valor p apropiado para esto (ya que de hecho uno podría desafiar el nulo por mera casualidad), y no usaría el nivel de 1%. La alta probabilidad de dudar del valor nulo no debe equipararse, uno a uno, con el valor p (ya que esa probabilidad es más un concepto bayesiano).

— Sextus Empiricus

He adaptado el texto para eliminar esta mala interpretación.

— Sextus Empiricus

0

Parece que están discutiendo el valor p frente a la definición de "Tendencia".

Si traza los datos en un gráfico de ejecución, puede ver una tendencia ... una serie de puntos de representación que muestran una tendencia que sube o baja con el tiempo.

Pero, cuando haces las estadísticas, el valor p sugiere que no es significativo.

Para que el valor p muestre poca importancia, pero para que vean una tendencia / corrida en la serie de datos ... esa sería una tendencia muy leve.

Entonces, si ese fuera el caso, recurriría al valor p ... IE: ok, sí, hay una tendencia / corrida en los datos ... pero es tan leve e insignificante que las estadísticas sugieren que no vale la pena continuar. análisis de.

Una tendencia insignificante es algo que puede atribuirse a algún tipo de sesgo en la investigación ... tal vez algo muy menor ... algo que puede ser una ocurrencia única en el experimento que creó una ligera tendencia.

Si yo fuera el gerente del grupo, les diría que dejen de perder tiempo y dinero buscando tendencias insignificantes y que busquen otras más significativas.

— blahblah
fuente

0

Parece que en este caso tienen poca justificación para su reclamo y solo están abusando de las estadísticas para llegar a la conclusión que ya tenían. Pero hay momentos en que está bien no ser tan estricto con los cortes de p-val. Este (cómo usar la significación estadística y los puntos de corte de pval) es un debate que se ha desatado desde que Fisher, Neyman y Pearson sentaron las bases de las pruebas estadísticas.

Supongamos que está creando un modelo y decide qué variables incluir. Recopila un poco de datos para hacer una investigación preliminar sobre posibles variables. Ahora hay una variable en la que el equipo de negocios está realmente interesado, pero su investigación preliminar muestra que la variable no es estadísticamente significativa. Sin embargo, la "dirección" de la variable corresponde a lo que el equipo de negocios esperaba, y aunque no alcanzó el umbral de importancia, estaba cerca. Quizás se sospechaba que tenía una correlación positiva con el resultado y obtuviste un coeficiente beta que fue positivo, pero el pval estaba un poco por encima del límite de 0.05.

En ese caso, puede continuar e incluirlo. Es una especie de estadística bayesiana informal: existía una fuerte creencia previa de que es una variable útil y la investigación inicial mostró cierta evidencia en esa dirección (¡pero no evidencia estadísticamente significativa!), Por lo que le da el beneficio de la duda y mantenerlo en el modelo. Quizás con más datos será más evidente qué relación tiene con el resultado de interés.

Otro ejemplo podría ser cuando está construyendo un nuevo modelo y observa las variables que se usaron en el modelo anterior; puede continuar incluyendo una variable marginal (una que está en la cúspide de importancia) para mantener cierta continuidad del modelo modelar.

Básicamente, dependiendo de lo que esté haciendo, hay razones para ser más y menos estrictos sobre este tipo de cosas.

Por otro lado, ¡también es importante tener en cuenta que la significación estadística no tiene que implicar una significación práctica! Recuerde que en el corazón de todo esto está el tamaño de la muestra. Recopile suficientes datos y el error estándar de la estimación se reducirá a 0. Esto hará cualquier tipo de diferencia, no importa cuán pequeña, 'estadísticamente significativa', incluso si esa diferencia podría no ser nada en el mundo real. Por ejemplo, supongamos que la probabilidad de que una moneda en particular caiga en la cara fuera de .500000000000001. Esto significa que, en teoría, podría diseñar un experimento que concluya que la moneda no es justa, pero para todos los efectos, la moneda podría tratarse como una moneda justa.

— eps
fuente