¿Qué significa que un estudio tenga demasiada potencia?

11

Mi impresión es que significa que sus tamaños de muestra son tan grandes que tiene el poder de detectar tamaños de efectos minúsculos. Estos tamaños de efectos son quizás tan pequeños que es más probable que resulten de sesgos leves en el proceso de muestreo que una conexión causal (no necesariamente directa) entre las variables.

¿Es esta la intuición correcta? Si es así, no veo cuál es el problema, siempre y cuando los resultados se interpreten de esa manera y usted verifique manualmente y vea si el tamaño del efecto estimado es lo suficientemente grande como para ser "significativo" o no.

¿Me estoy perdiendo de algo? ¿Hay una mejor recomendación sobre qué hacer en este escenario?

— Frank Barry
fuente

Suena exactamente como mi comprensión intuitiva de este término.

— Henrik

11

Creo que tu interpretación es incorrecta.

Usted dice "Estos tamaños de efectos son quizás tan pequeños que es más probable que sean el resultado de sesgos leves en el proceso de muestreo que una conexión causal (no necesariamente directa) entre las variables", lo que parece implicar que el valor P en un 'sobrecargado' El estudio no es el mismo tipo de cosas que un valor P de un estudio con una potencia "adecuada". Eso está mal. En ambos casos, el valor P es la probabilidad de obtener datos tan extremos como los observados, o más extremos, si la hipótesis nula es cierta.

Si prefiere el enfoque de Neyman-Pearson, la tasa de errores falsos positivos obtenidos del estudio 'sobrealimentado' es la misma que la de un estudio 'adecuadamente' potenciado si se usa el mismo valor alfa para ambos.

La diferencia en la interpretación que se necesita es que existe una relación diferente entre la significación estadística y la significación científica para los estudios con demasiado poder. En efecto, el estudio excesivo dará una gran probabilidad de obtener significación aunque el efecto sea, como usted dice, minúsculo y, por lo tanto, de importancia cuestionable.

Mientras los resultados de un estudio 'sobrecargado' se interpreten apropiadamente (y los intervalos de confianza para el tamaño del efecto ayuden a tal interpretación) no hay problema estadístico con un estudio 'sobrecargado'. Desde ese punto de vista, los únicos criterios por los cuales un estudio puede ser sobrecargado son los problemas éticos y de asignación de recursos planteados en otras respuestas.

— Michael Lew
fuente

Gracias, esto es muy informativo. Entiendo que la definición del valor p no cambia. Ciertamente, desde un punto de vista estadístico, la tasa de errores de tipo I no aumenta.

— Frank Barry

1

Por definición, estamos arreglando la tasa de error de tipo I al establecer el umbral del valor p. Sin embargo, parece que la diferencia entre significación "estadística" y "práctica" es el problema aquí. Cuando el tamaño de la muestra es capaz de detectar diferencias mucho más finas que el tamaño del efecto esperado, una diferencia que es estadísticamente distinta no es prácticamente significativa (y desde la perspectiva del "usuario final" esto es efectivamente un "falso positivo" incluso si No es una estadística). Sin embargo, como usted dice, esto comienza a salir del ámbito de las estadísticas.

— Frank Barry

1

es decir, creo que estoy de acuerdo: "la diferencia de interpretación que se necesita es que existe una relación diferente entre la significación estadística y la significación científica"

— Frank Barry,

4

En la investigación médica, los ensayos pueden ser poco éticos si reclutan demasiados pacientes. Por ejemplo, si el objetivo es decidir qué tratamiento es mejor, ya no es ético tratar a los pacientes con el peor tratamiento después de que se estableció que era inferior. Por supuesto, aumentar el tamaño de la muestra le proporcionaría una estimación más precisa del tamaño del efecto, pero es posible que deba detenerse mucho antes de que aparezcan los efectos de factores como "sesgos leves en el proceso de muestreo".

También puede ser poco ético gastar dinero público en investigación suficientemente confirmada.

— GaBorgulya
fuente

1

Todo lo que has dicho tiene sentido (aunque no sé a qué "gran cosa" te refieres), y especialmente. como su punto sobre los tamaños del efecto en lugar de la significación estadística. Otra consideración es que algunos estudios requieren la asignación de recursos escasos para obtener la participación de cada caso, por lo que uno no querría exagerar.

— rolando2
fuente

Lo sentimos, "gran cosa" es demasiado comentario editorial. La cuestión de si se trata de un "problema mayor" de lo que pretendo decir es básicamente una cuestión de si hay consideraciones adicionales de las cuales puedo ser ignorante.

— Frank Barry

0

Mi experiencia proviene de los experimentos A / B en línea, donde el problema generalmente son los estudios de poca potencia o la medición de las cosas incorrectas. Pero me parece que un estudio sobrecargado produce intervalos de confianza más estrechos que los estudios comparables, valores p más bajos y posiblemente una variación diferente. Me imagino que esto puede dificultar la comparación de estudios similares. Por ejemplo, si repitiera un estudio sobrecargado utilizando la potencia adecuada, mi valor p sería mayor incluso si replicara exactamente el efecto. El aumento del tamaño de la muestra puede igualar la variabilidad o introducir variabilidad si hay valores atípicos que podrían tener una mayor probabilidad de aparecer en una muestra más grande.

Además, mis simulaciones muestran que los efectos distintos de los que le interesan pueden volverse significativos con una muestra más grande. Entonces, si bien el valor p le indica correctamente la probabilidad de que sus resultados sean reales, podrían ser reales por razones distintas a las que usted piensa, por ejemplo, una combinación de posibilidades, algún efecto transitorio que no controló y quizás algún otro efecto más pequeño que introdujiste sin darte cuenta. Si el estudio está un poco sobrecargado, el riesgo de esto es bajo. El problema es que a menudo es difícil saber la potencia adecuada, por ejemplo, si las métricas de línea de base y el efecto objetivo mínimo son suposiciones o resultan diferentes de lo esperado.

También me encontré con un artículo que argumenta que una muestra demasiado grande puede hacer que una prueba de bondad de ajuste sea demasiado sensible a las desviaciones intrascendentes, lo que lleva a resultados potencialmente contraintuitivos.

Dicho esto, creo que es mejor equivocarse en el lado de alta potencia en lugar de baja potencia.

— Vlad
fuente