Si tengo muchos resultados positivos e insignificantes, ¿puedo probar "al menos


9

Digamos que he ejecutado la misma regresión para 100 individuos diferentes por separado. Mis coeficientes de interés son positivos (y bastante diferentes entre sí) pero estadísticamente insignificantes en los 100 resultados (digamos que cada valor de p = 0.11).

¿Hay alguna forma de combinar estos valores de p para concluir que "al menos 80 de estos resultados son positivos" con mayor importancia que p = 0.11? Mis búsquedas en línea solo me han mostrado cómo decir "al menos 1 de estos resultados es positivo" a través de una prueba de Fisher o similar, pero no he podido generalizar ese resultado. Quiero probar "H0 = los 100 efectos son iguales en 0" contra "HA = al menos 80 efectos son positivos".

Mi objetivo no es decir que hay un coeficiente positivo en promedio, y tampoco es medir específicamente el coeficiente. Mi objetivo es demostrar, de manera significativa, que al menos 80 personas se enfrentaron individualmente a algún efecto positivo, independientemente de cuáles 80, e independientemente de la magnitud del efecto que siente cada individuo.


2
¿Qué quiere decir con "ejecutar la misma regresión para 100 individuos por separado"? ¿Significa esto que tiene 100 conjuntos de datos, cada uno con múltiples observaciones en el mismo conjunto de variables de respuesta y variables explicativas? No estoy seguro de cómo funciona esto, por ejemplo, si está interesado en comparar la altura y el peso de las personas, solo tiene una observación para cada persona, entonces, ¿cómo encaja una regresión? ¿Quizás tenga una serie temporal para cada individuo, en cuyo caso necesita técnicas más sofisticadas de todos modos? Esa sería una forma de análisis longitudinal, si está buscando términos de búsqueda.
Peter Ellis

Respuestas:


8

Debe realizar los 100 análisis como un solo modelo de efectos mixtos, con sus propios coeficientes de variables aleatorias de interés. De esa manera, puede estimar una distribución para esos coeficientes, incluida su media general, que le dará el tipo de interpretación que creo que está buscando.

Teniendo en cuenta que, si sospecho que es el caso, tiene una serie temporal para cada individuo, también deberá corregir la autocorrelación de los residuos.


Gracias por su tiempo, muy apreciado. Si puedo aclarar, es una serie de tiempo. Digamos que tengo datos para las 100 personas durante 5 años, y en el tercer año una variable ficticia (la variable independiente en la que estoy interesado) cambia a 1 al mismo tiempo para las 100 personas. No me importa el efecto preciso de ese cambio en cada persona, o el efecto promedio. Más bien, solo quiero establecer que al menos 80 personas fueron afectadas. El coeficiente es positivo en todos los 100, pero cada uno es insignificante. No estoy seguro de que medir la distribución del coeficiente lo logre.
usuario28239

1
Eso es lo que supuse que tenías. Creo que mi enfoque recomendado es el correcto. Luego puede usar el modelo para hacer predicciones o cualquier otra cosa interpretativa que desee.
Peter Ellis

4

Lo más sencillo sería probablemente una prueba de signos. La hipótesis nula es que cada resultado tiene la misma probabilidad de ser positivo o negativo (como lanzar una moneda justa). Su objetivo es determinar si los resultados observados serían lo suficientemente improbables bajo esta hipótesis nula de que puede rechazarlo.

¿Cuál es la probabilidad de obtener 80 o más caras de 100 lanzamientos de una moneda justa? Puede calcular esto usando la distribución binomial. En R, se llama a la función relevante pbinomy puede obtener un valor p (unilateral) utilizando la siguiente línea de código:

pbinom(80, size = 100, prob = 0.5, lower.tail = FALSE)

Según esta prueba, su intuición es correcta, sería muy poco probable que obtenga 80 resultados positivos por casualidad si el tratamiento no tuviera ningún efecto.

Una opción estrechamente relacionada sería usar algo como la prueba de rango con signo de Wilcoxon .


Un mejor enfoque, si realmente desea estimar el tamaño del efecto (en lugar de simplemente determinar si tiende a ser mayor que cero o no), probablemente sería un modelo jerárquico ("mixto").

Aquí, el modelo dice que los resultados de sus 100 individuos provienen de una distribución, y su objetivo es ver dónde está la media de esa distribución (junto con los intervalos de confianza).

Los modelos mixtos le permiten decir un poco más sobre los tamaños de sus efectos: después de ajustar el modelo, podría decir algo como "estimamos que nuestro tratamiento tiende a mejorar los resultados en un promedio de tres unidades, aunque los datos son consistentes con el promedio real el tamaño del efecto es de 1.5 a 4.5 unidades. Además, hay alguna variación entre los individuos, por lo que una persona determinada puede ver un efecto en cualquier lugar de -0.5 a +6.5 unidades ".

Es un conjunto de afirmaciones muy preciso y útil, mucho mejor que simplemente "el efecto es probablemente positivo, en promedio", por lo que este enfoque tiende a ser favorecido por los estadísticos. Pero si no necesita todos esos detalles, el primer enfoque que mencioné también podría estar bien.


0

Tal vez me equivoque por completo, pero lo que me parece es que estás tratando de hacer ANOVA de medidas repetidas. Simplemente defina este "ficticio" como un factor dentro del sujeto, y el modelo haría el resto. La importancia en sí misma no es muy informativa; es obligatorio pero no suficiente; cualquier modelo se volvería significativo con un número suficientemente grande de observaciones. es posible que desee obtener el tamaño de los efectos, como Eta-Squared (parcial), para tener una idea de cuán "grande" es su efecto. Mis 2 centavos


0

Puede ser tan simple como un cálculo ANCOVA ordinario, pero la forma adecuada de analizar sus datos dependerá de la situación física y no ha proporcionado esos detalles.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.