¿Se pueden analizar muestras no aleatorias utilizando pruebas estadísticas estándar?

24

Muchos estudios clínicos se basan en muestras no aleatorias. Sin embargo, la mayoría de las pruebas estándar (por ejemplo, pruebas t, ANOVA, regresión lineal, regresión logística) se basan en el supuesto de que las muestras contienen "números aleatorios". ¿Son válidos los resultados si estas muestras no aleatorias se analizaron mediante pruebas estándar? Gracias.

sampling randomness

— KuJ
fuente

20

Hay dos modelos generales para probar. El primero, basado en el supuesto de un muestreo aleatorio de una población, generalmente se denomina "modelo de población".

Por ejemplo, para la prueba t de dos muestras independientes, suponemos que los dos grupos que queremos comparar son muestras aleatorias de las poblaciones respectivas. Suponiendo que las distribuciones de los puntajes dentro de los dos grupos se distribuyen normalmente en la población, podemos deducir analíticamente la distribución de muestreo del estadístico de prueba (es decir, para el estadístico t). La idea es que si tuviéramos que repetir este proceso (extrayendo al azar dos muestras de las poblaciones respectivas) un número infinito de veces (por supuesto, en realidad no lo hacemos), obtendríamos esta distribución de muestreo para la estadística de prueba.

Un modelo alternativo para la prueba es el "modelo de aleatorización". Aquí, no tenemos que recurrir al muestreo aleatorio. En cambio, obtenemos una distribución aleatoria a través de permutaciones de nuestras muestras.

Por ejemplo, para la prueba t, tiene sus dos muestras (no necesariamente obtenidas mediante muestreo aleatorio). Ahora, si de hecho no hay diferencia entre estos dos grupos, entonces si una persona en particular realmente "pertenece" al grupo 1 o al grupo 2 es arbitrario. Entonces, lo que podemos hacer es permutar la asignación del grupo una y otra vez, cada vez observando hasta qué punto están separados los medios de los dos grupos. De esta manera, obtenemos una distribución de muestreo empíricamente. Luego podemos comparar hasta qué punto las dos medias están separadas en las muestras originales (antes de comenzar a reorganizar las membresías del grupo) y si esa diferencia es "extrema" (es decir, cae en las colas de la distribución de muestreo derivada empíricamente), entonces concluimos la pertenencia a ese grupo no es arbitraria y, de hecho, hay una diferencia entre los dos grupos.

En muchas situaciones, los dos enfoques realmente conducen a la misma conclusión. En cierto modo, el enfoque basado en el modelo de población puede verse como una aproximación a la prueba de aleatorización. Curiosamente, Fisher fue quien propuso el modelo de aleatorización y sugirió que debería ser la base de nuestras inferencias (ya que la mayoría de las muestras no se obtienen mediante muestreo aleatorio).

Un buen artículo que describe la diferencia entre los dos enfoques es:

Ernst, MD (2004). Métodos de permutación: una base para la inferencia exacta. Ciencia estadística, 19 (4), 676-685 (enlace) .

Otro artículo que proporciona un buen resumen y sugiere que el enfoque de aleatorización debería ser la base de nuestras inferencias:

Ludbrook, J. y Dudley, H. (1998). Por qué las pruebas de permutación son superiores a las pruebas t y F en la investigación biomédica. Estadístico estadounidense, 52 (2), 127-132 (enlace) .

EDITAR: También debo agregar que es común calcular el mismo estadístico de prueba cuando se usa el enfoque de aleatorización que en el modelo de población. Entonces, por ejemplo, para probar la diferencia de medias entre dos grupos, uno calcularía el estadístico t habitual para todas las permutaciones posibles de las membresías del grupo (produciendo la distribución de muestreo derivada empíricamente bajo la hipótesis nula) y luego verificaría cuán extremo la estadística t para la membresía original del grupo está bajo esa distribución.

— Wolfgang
fuente

8

Su pregunta es muy buena, pero no tiene una respuesta directa.

La mayoría de las pruebas como las que menciona se basan en el supuesto de que una muestra es una muestra aleatoria, porque es probable que una muestra aleatoria sea representativa de la población muestreada. Si el supuesto no es válido, cualquier interpretación de los resultados debe tenerlo en cuenta. Cuando la muestra es muy no representativa de la población, entonces los resultados pueden ser engañosos. Cuando la muestra es representativa a pesar de no ser aleatoria, los resultados serán perfectamente correctos.

El siguiente nivel de la pregunta es preguntar cómo se puede decidir si la no aleatoriedad es importante en un caso particular. No puedo responder eso ;-)

— Michael Lew
fuente

5

Hace una pregunta muy general, por lo que la respuesta no puede ser adecuada para todos los casos. Sin embargo, puedo aclarar. Las pruebas estadísticas generalmente tienen que ver con la distribución observada versus una distribución hipotética (llamada distribución nula o hipótesis nula; o, en algunos casos, una distribución alternativa). Las muestras pueden ser no aleatorias, pero la prueba que se administra se aplica a algún valor obtenido de las muestras. Si esa variable puede tener algunas propiedades estocásticas, entonces su distribución se compara con alguna distribución alternativa. Lo que importa entonces es si el estadístico de prueba de la muestra se mantendría o no para alguna otra población de interés y si los supuestos con respecto a la distribución alternativa o nula son relevantes para la otra población de interés.

— Iterador
fuente