Tamaños de muestra pequeños y no balanceados para dos grupos: ¿qué hacer?

Tengo datos para dos grupos (es decir, muestras) que deseo comparar, pero el tamaño total de la muestra es pequeño (n = 29) y muy desequilibrado (n = 22 vs n = 7).

Estos datos son logísticamente difíciles y caros de recopilar, por lo que, aunque 'recopilar más datos' como solución obvia no es útil en este caso.

Se midieron varias variables diferentes (fecha de salida, fecha de llegada, duración de la migración, etc.), por lo que hay múltiples pruebas, algunas de las cuales las variaciones son muy diferentes (la muestra más pequeña tiene una varianza más alta).

Inicialmente, un colega realizó pruebas t de estos datos, y algunos fueron estadísticamente significativos con P <0.001, otro no fue significativo con P = 0.069. Algunas muestras se distribuyeron normalmente, otras no. Algunas pruebas implicaron grandes desviaciones de las variaciones "iguales".

Tengo varias preguntas

¿Son apropiadas las pruebas t aquí? Si no, ¿por qué? ¿Esto se aplica solo a las pruebas en las que se cumplen los supuestos de normalidad e igualdad de varianzas?
¿Cuál es una alternativa adecuada? Tal vez una prueba de permutación?
la variación desigual infla el error Tipo I, pero ¿cómo? ¿Y qué efecto tiene el tamaño de muestra pequeño y desequilibrado en el error Tipo I?

t-test sample-size

— DeanP
fuente

Respuestas:

Las pruebas T que suponen variaciones iguales de las dos poblaciones no son válidas cuando las dos poblaciones tienen variaciones diferentes, y es peor para tamaños de muestra desiguales. Si el tamaño de muestra más pequeño es el que tiene la mayor varianza, la prueba tendrá un error Tipo I inflado). La versión Welch-Satterthwaite de la prueba t, por otro lado, no asume variaciones iguales. Si está pensando en la prueba de permutación de Fisher-Pitman, también supone variaciones iguales (si desea inferir medias desiguales a partir de un valor p bajo).

Hay una serie de otras cosas en las que puede pensar:

(1) Si las variaciones son claramente desiguales, ¿todavía está interesado en una diferencia entre las medias?

(2) ¿Podrían las estimaciones del efecto ser más útiles para usted que los valores p?

(3) ¿Desea considerar la naturaleza multivariante de sus datos, en lugar de simplemente hacer una serie de comparaciones univariadas?

— Scortchi - Restablece a Monica
fuente

Hola Scortchi, gracias por tu respuesta. He considerado las preguntas que

— planteaste

(1) Tanto la varianza como la media pueden ser informativas para nuestro estudio (por ejemplo, las fechas de salida de la migración pueden ser significativamente posteriores para una población Y el rango en las fechas de salida es más variable).

— DeanP

(1) Solo lo mencioné porque la gente a menudo ve las variaciones desiguales únicamente como un problema técnico y olvida que es un hecho interesante por derecho propio.

— Scortchi - Restablece a Monica

(2) Mi punto era más que una lista de valores p es generalmente menos útil que una lista de estimaciones del tamaño del efecto (que podrían ser medias, medianas, variaciones o lo que sea) con intervalos de confianza. Especialmente con muestras pequeñas, los intervalos de confianza pueden mostrar si los tamaños de los efectos de importancia práctica siguen siendo concordantes con los datos, incluso cuando el valor p es alto.

— Scortchi - Restablece a Monica

(3) Estaba pensando en una variable independiente (grupo) y varias variables dependientes (tiempo de migración, etc.): una diferencia interesante entre los grupos podría ser un cambio en la relación entre las variables dependientes. Un primer paso sería una buena matriz con diagramas de caja o diagramas de puntos que comparan cada dv entre grupos a lo largo de la diagonal, y diagramas de dispersión para cada par de dvs (nuevamente distinguiendo grupos) en las otras celdas. Y para ser sincero, para un análisis exploratorio con tamaños de muestra pequeños, ese podría ser el último paso.

— Scortchi - Restablece a Monica

Primero, como Scortchi ya señala, la prueba T no se adapta tan bien a sus datos, debido a sus supuestos sobre la distribución de los datos.

Para su segundo punto, propondría una alternativa a la prueba T. Si solo le interesa el hecho, si las distribuciones de sus dos muestras son iguales o no, también puede intentar usar la versión de dos lados de la prueba de suma de rango de Wilcoxon. La prueba de suma de rango de Wilcoxon es una prueba no paramétrica. Este tipo de prueba es especialmente útil si no está seguro de la distribución subyacente de sus datos.

Existe una solución exacta de la prueba para tamaños de muestra pequeños, así como para grandes cohortes. Además, también existe un paquete R que realiza la prueba de suma de rangos de Wilcoxon.

Como es una prueba sin parámetros y también maneja tamaños de muestra pequeños, la prueba debería ser adecuada para su caso de prueba.

— Alex VII
fuente