Pruebas estadísticas comunes como modelos lineales.

(ACTUALIZACIÓN: profundicé en esto y publiqué los resultados aquí )

La lista de pruebas estadísticas con nombre es enorme. Muchas de las pruebas comunes se basan en la inferencia de modelos lineales simples, por ejemplo, una prueba t de una muestra es solo y = β + ε que se prueba contra el modelo nulo y = μ + ε, es decir, que β = μ donde μ es algo nulo valor - típicamente μ = 0.

Considero que esto es bastante más instructivo para propósitos de enseñanza que aprender de memoria modelos con nombre, cuándo usarlos y sus suposiciones como si no tuvieran nada que ver entre sí. Ese enfoque promueve no promueve la comprensión. Sin embargo, no puedo encontrar un buen recurso para recopilar esto. Estoy más interesado en las equivalencias entre los modelos subyacentes que en el método de inferencia de ellos. Aunque, por lo que puedo ver, las pruebas de razón de probabilidad en todos estos modelos lineales arrojan los mismos resultados que la inferencia "clásica".

Aquí están las equivalencias que he aprendido hasta ahora, ignorando el término de error y suponiendo que todas las hipótesis nulas son la ausencia de un efecto: $\varepsilon \sim \mathcal N(0, \sigma^2)$

Prueba t de una muestra: . $y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Prueba t de muestra emparejada: $y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0$

Esto es idéntico a una prueba t de una muestra sobre diferencias por pares.

Prueba t de dos muestras: $y = \beta_1 * x_i + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

donde x es un indicador (0 o 1).

Correlación de Pearson: $y = \beta_1 * x + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Observe la similitud con una prueba t de dos muestras que es solo una regresión en un eje x binario.

Correlación de Spearman: $rank(y) = \beta_1 * rank(x) + \beta_0 \qquad \mathcal{H}_0: \beta_1 = 0$

Esto es idéntico a una correlación de Pearson en x e y transformados por rango.

ANOVA unidireccional: $y = \beta_1*x_1 + \beta_2*x_2 + \beta_3*x_3 +... \qquad \mathcal{H}_0: \beta_1, \beta_2, \beta_3, ... = \beta$

donde son indicadores que seleccionan la relevante (una es 1; las otras son 0). El modelo probablemente podría ser escrita en forma de matriz como como . $x_i$ $\beta$ $x$ $Y = \beta * X$

ANOVA de dos vías: $y = \beta_1 * X_1 + \beta_2 * X_2 + \beta_3 * X_1 * X_2 \qquad \mathcal{H}_0: \beta_3 = 0$

para dos factores de dos niveles. Aquí son vectores de betas donde uno es seleccionado por el vector indicador . El muestra aquí es el efecto de interacción. $\beta_i$ $X_i$ $\mathcal{H}_0$

¿Podríamos agregar más "pruebas con nombre" a esta lista de modelos lineales? Por ejemplo, ¿regresión multivariada, otras pruebas "no paramétricas", pruebas binomiales o ANOVA RM?

ACTUALIZACIÓN: se han hecho y respondido preguntas sobre ANOVA y las pruebas t como modelos lineales aquí en SO. Vea esta pregunta y las preguntas relacionadas etiquetadas .

— revs Jonas Lindeløv
fuente

Creo que estas comparaciones son apropiadas, pero que en algún momento también hay diferencias sutiles. Por ejemplo, tome el ANOVA unidireccional: donde una regresión lineal le proporcionará los coeficientes y en la mayoría de los paquetes de software la significancia por coeficiente con las pruebas de Wald (lo que podría no ser apropiado), un ANOVA proporcionará un solo valor p que indica si alguno uno de los coeficientes es significativamente diferente de cero. Una prueba de razón de probabilidad entre un modelo nulo y el modelo de regresión de interés podría ser más comparable. Como tal, no igualaría completamente estas pruebas / modelos.

— IWS

Buen punto; Actualicé la pregunta, diciendo que "estoy más interesado en las equivalencias entre los modelos subyacentes que en el método de inferencia de ellos". Las pruebas de razón de verosimilitud en los ANOVA unidireccionales y los términos de interacción producen valores p idénticos a los análisis "clásicos" en lo que respecta a mis pruebas.

— Jonas Lindeløv

Es justo, pero aparte de la inferencia, tenga en cuenta que los modelos de regresión también proporcionan flexibilidad adicional cuando se maneja la no linealidad (aunque las transformaciones también se pueden probar con estas 'pruebas con nombre', las splines son un asunto diferente) o el manejo de la heterocedasticidad, sin mencionar la familia de modelos generalizados que también manejan variables dependientes no continuas. No obstante, puedo ver que explicar las pruebas nombradas como variaciones restrictivas de los modelos de regresión con fines de enseñanza pueden tener mérito, por lo que +1

— IWS

¿Es la correlación de rango de Spearman realmente un modelo lineal?

— Martin Dietz

@ MartinDietz: Sí, después de transformar x e y de rango, es lineal. Código R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')

— Jonas Lindeløv

No es una lista exhaustiva, pero si incluye modelos lineales generalizados , el alcance de este problema se vuelve sustancialmente mayor.

Por ejemplo:

La prueba de tendencia de Cochran-Armitage puede formularse mediante:

E [logit (p) | t] = β_{0} + β_{1} t H_{0} : β_{1} = 0

$E[\mbox{logit} (p) | t] = \beta_0 + \beta_1 t \qquad \mathcal{H}_0: \beta_1 = 0$

La prueba de independencia Chi-Square de Pearson para una tabla de contingencia $p \times k$ es un modelo logarítmico lineal para las frecuencias de celda dado por:

E [\log (μ)] = β_{0} + β_{i .} + β_{. j} + γ_{i j} i, j > 1 H_{0} : γ_{i j} = 0, i, j > 1

$E[\log (\mu)] = \beta_0 + \beta_{i.} + \beta_{.j} + \gamma_{ij} \quad i,j > 1 \qquad\mathcal{H}_0: \gamma_{ij} = 0, \quad i,j > 1$

Además, la prueba t para las variaciones desiguales se aproxima bien utilizando la estimación robusta de errores de Huber White.

— AdamO
fuente