¿Cuándo usar la distribución de Student o Normal en regresión lineal?

10

Estoy viendo algunos problemas, y en algunos, para probar los coeficientes, a veces veo personas que usan la distribución de Student, y a veces veo la distribución Normal. Cual es la regla

regression distributions hypothesis-testing

— León
fuente

3

Esta no es una respuesta, pero tenga en cuenta que la distribución aproxima a la distribución normal a medida que el parámetro de grados de libertad aumenta. Pasado , no hay una diferencia apreciable, particularmente en la mayoría de los marcos de prueba de hipótesis. El comportamiento limitante es "desde arriba" en el sentido de que si y , entonceses estocásticamente más grande que.

t

$t$

ν

$\nu$

ν \geq 30

$\nu \geq 30$

T \sim t_{ν}

$T \sim t_{\nu}$

Z \sim N (0, 1)

$Z \sim \mathcal{N}(0,1)$

| T |

$|T|$

| Z |

$|Z|$

— Cardenal

15

La distribución normal es la distribución de muestra grande en muchos problemas estadísticos significativos que involucran alguna versión del Teorema del límite central: tiene (aproximadamente) piezas independientes de información que se suman para llegar a la respuesta. Si las estimaciones de los parámetros son asintóticamente normales, sus funciones también serán asintóticamente normales (en casos regulares).

Por otro lado, la distribución Student se deriva en condiciones más restrictivas de errores de regresión normales. Si puede comprar esta suposición, puede comprar la distribución se usa para probar hipótesis en regresión lineal. El uso de esta distribución proporciona intervalos de confianza más amplios que el uso de la distribución normal. El significado sustantivo de esto es que en muestras pequeñas, debe estimar su medida de incertidumbre, el error cuadrático medio de regresión o la desviación estándar de los residuos, . (En muestras grandes, tiene tanta información como si la supiera, por lo que la distribución degenera en la distribución normal). $t$ $t$ $\sigma$ $t$

Hay algunas ocasiones en la regresión lineal, incluso con muestras finitas, donde la distribución de Student no puede justificarse. Están relacionados con violaciones de las condiciones de segundo orden en errores de regresión; a saber, que son (1) varianza constante y (2) independientes. Si se violan estos supuestos y corrige sus errores estándar utilizando el estimador Eicker / White para residuos heterocedasticos, pero independientes; o estimador de Newey-West para errores correlacionados en serie o errores estándar agrupadospara los datos correlacionados por el clúster, no hay forma de obtener una justificación razonable para la distribución de Estudiantes. Sin embargo, al emplear una versión adecuada del argumento de normalidad asintótica (matrices traingulares y demás), puede justificar la aproximación normal (aunque debe tener en cuenta que sus intervalos de confianza probablemente sean demasiado estrechos).

— StasK
fuente

1

(+1) ¡Me encanta la implicación, al comienzo del tercer párrafo, de que la regresión lineal se realiza con muestras infinitas (no "finitas")!

— whuber

@whuber: :) En mis libros, si es normal, debe depender de CLT o algo asintótico. De lo contrario, tiene tanto sentido como esto .

— StasK

6

Me gusta la representación de la distribución t de Student como una mezcla de una distribución normal y una distribución gamma:

S t u d e n t (x | μ, σ^{2}, ν) = \int_{0}^{\infty} N o r m a l (x | μ, \frac{σ^{2}}{ρ}) G a m m a (ρ | \frac{ν}{2}, \frac{ν}{2}) d ρ

$Student(x|\mu,\sigma^2,\nu)=\int_{0}^{\infty}Normal\left(x|\mu,\frac{\sigma^2}{\rho}\right)Gamma\left(\rho|\frac{\nu}{2},\frac{\nu}{2}\right)d\rho$

Tenga en cuenta que la media de la distribución gamma es y la varianza de esta distribución es . Por lo tanto, podemos ver la distribución t como una generalización del supuesto de varianza constante a un supuesto de varianza "similar". básicamente controla cuán similares permitimos que sean las variaciones. También puede ver esto como una regresión "aleatoria ponderada", ya que podemos usar la integral anterior como una representación de "variable oculta" de la siguiente manera: $E[\rho|\nu]=1$ $V[\rho|\nu]=\frac{2}{\nu}$ $\nu$

y_{i} = μ_{i} + \frac{e_{i}}{\sqrt{ρ_{i}}}

$y_i=\mu_i+\frac{e_i}{\sqrt{\rho_i}}$

Donde y todas las variables son independientes. De hecho, esto es básicamente la definición de la distribución t, como $e_i\sim N(0,\sigma^2)$ $\rho_i\sim Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)$ $Gamma\left(\frac{\nu}{2},\frac{\nu}{2}\right)\sim \frac{1}{\nu}\chi^2_\nu$

Puede ver por qué este resultado hace que la distribución t de Student sea "robusta" en comparación con la normal porque puede ocurrir un error grande debido a un valor grande de o debido a un valor pequeño de . Ahora porque es común a todas las observaciones, pero es específico de la i-ésima, lo que el "sentido común" general para concluir es que los valores atípicos dan evidencia de pequeños . Además, si tuviera que hacer una regresión lineal , encontrará que es el peso de la i-ésima observación, suponiendo que se : $y_i-\mu_i$ $\sigma^2$ $\rho_i$ $\sigma^2$ $\rho_i$ $\rho_i$ $\mu_i=x_i^T\beta$ $\rho_i$ $\rho_i$

\hat{β} = (\sum_{i} ρ_{i} x_{i} x_{i}^{T})^{- 1} (\sum_{i} ρ_{i} x_{i} y_{i})

$\hat{\beta}=(\sum_i\rho_ix_ix_i^T)^{-1}(\sum_i\rho_ix_iy_i)$

Entonces, un valor atípico constituye evidencia de pequeño que significa que la i-ésima observación tiene menos peso. Además, un pequeño "valor atípico", una observación que se predice / ajusta mucho mejor que el resto, constituye evidencia de un gran . Por lo tanto, esta observación tendrá más peso en la regresión. Esto está en línea con lo que uno haría intuitivamente con un valor atípico o un buen punto de datos. $\rho_i$ $\rho_i$

Tenga en cuenta que no hay una "regla" para decidir estas cosas, aunque la respuesta mía y de otros a esta pregunta puede ser útil para encontrar algunas pruebas que puede hacer a lo largo de la ruta de variación finita (la t de estudiante es una variación infinita para grados de libertad menores o iguales) para dos).

— probabilidadislogica
fuente

+1: esto parece correcto, pero no creo que deba decir una mezcla de una distribución normal y una distribución gamma, sino más bien una distribución compuesta normal-gamma-normal y motivar esta construcción al decir que la distribución normal-gamma es el conjugado previo de la distribución normal (parametrizado por media y precisión).

— Neil G

Sí, punto tomado sobre la mezcla, aunque no puedo pensar en una manera no torpe de corregirlo en este momento. Tenga en cuenta que esta forma no es exclusiva de las distribuciones conjugadas; por ejemplo, si reemplazamos el pdf gamma con un pdf exponencial invertido, obtenemos la distribución de Laplace. Esto conduce a "desviaciones menos absolutas" en lugar de mínimos cuadrados como una forma de robustecer la distribución normal. Otras distribuciones conducirían a otras "robusteces", aunque quizás no sean tan analíticamente bonitas como las de los estudiantes.

— chanceislogic

Si X es una variable aleatoria normal estándar y U es una variable aleatoria chi-cuadrado con ν grados de libertad, entonces es un estudiante t (ν) variable aleatoria. Aquí .

\frac{X}{\sqrt{(U / ν)}}

${\frac {X}{\sqrt {(U/\nu )}}}$

— Carl