Prueba de Wald para regresión logística

Hasta donde yo entiendo, la prueba de Wald en el contexto de la regresión logística se usa para determinar si cierta variable predictora es significativa o no. Rechaza la hipótesis nula de que el coeficiente correspondiente sea cero. $X$

La prueba consiste en dividir el valor del coeficiente por error estándar . $\sigma$

Lo que me confunde es que también se conoce como puntaje Z e indica la probabilidad de que una observación determinada provenga de la distribución normal (con media cero). $X/\sigma$

logistic z-statistic

— usuario695652
fuente

Posible duplicado de la prueba

— Firebug

Tal vez podría ser al revés, ya que la respuesta en este caso está más desarrollada.

— Firebug

Las estimaciones de los coeficientes y las intersecciones en la regresión logística (y cualquier GLM) se encuentran a través de la estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como . Nuestro parámetro de interés se denota y generalmente es 0, ya que queremos probar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica de MLE, sabemos que la diferencia entre y se distribuirá aproximadamente normalmente con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como Larry Wasserman Todas las estadísticas ) . Recuerde que los errores estándar no son más que $\hat{\theta}$ $\theta_{0}$ $\hat{\theta}$ $\theta_{0}$ desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometry : "una estadística es cualquiera de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividir una distribución normal con media 0 y desviación estándar por su desviación estándar dará como resultado la distribución normal estándar con media 0 y desviación estándar 1. La estadística de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215): o $\sigma$

W = \frac{(\hat{β} - β_{0})}{\hat{se} (\hat{β})} \sim N (0, 1)

$W=\frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1)$

W^{2} = \frac{(\hat{β} - β_{0})^{2}}{\hat{Var} (\hat{β})} \sim χ_{1}^{2}

$W^{2}=\frac{(\hat{\beta}-\beta_{0})^2}{\widehat{\operatorname{Var}}(\hat{\beta})}\sim \chi^{2}_{1}$ La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es la con 1 grado de libertad (la suma de dos distribuciones normales estándar al cuadrado sería una con 2 grados de libertad y así sucesivamente).

χ_{1}^{2}

$\chi^{2}_{1}$

χ_{2}^{2}

$\chi^{2}_{2}$

Debido a que el parámetro de interés suele ser 0 (es decir, ), la estadística de Wald se simplifica a Que es lo que usted describió: la estimación del coeficiente dividido por su error estándar. $\beta_{0}=0$

W = \frac{\hat{β}}{\hat{se} (\hat{β})} \sim N (0, 1)

$W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1)$

¿Cuándo es una y cuándo se usa un valor ? $z$ $t$

La elección entre un valor o un valor depende de cómo se haya calculado el error estándar de los coeficientes. Debido a que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos usar la puntuación para calcular el valor . Cuando, además de los coeficientes, también tenemos que estimar la varianza residual, se usa un valor lugar del valor . En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es donde $z$ $t$ $z$ $p$ $t$ $z$ $\operatorname{Var}[\hat{\beta}|X]=\sigma^2(X'X)^{-1}$ $\sigma^2$ es la varianza de los residuos (que es desconocida y debe estimarse a partir de los datos) y es la matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Como no sabemos , tenemos que reemplazarlo por su estimación , entonces: . Ahora ese es el punto: dado que tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos usar un valor y la distribución . $X$ $\sigma^2$ $\hat{\sigma}^{2}=s^2$ $\widehat{\operatorname{se}}(\hat{\beta_{j}})=\sqrt{s^2(X'X)_{jj}^{-1}}$ $t$ $t$

En la regresión logística (y de Poisson), la varianza de los residuos está relacionada con la media. Si , la media es y la varianza es por lo que la varianza y la media están relacionadas. En la regresión logística y de Poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión indica si tenemos más o menos de la varianza esperada. Si esto significa que observamos la cantidad esperada de varianza, mientras que significa que tenemos menos de la varianza esperada (llamada subdispersión) y $Y\sim Bin(n, p)$ $E(Y)=np$ $\operatorname{Var}(Y)=np(1-p)$ $\phi$ $\phi=1$ $\phi<1$ $\phi>1$ significa que tenemos una varianza adicional más allá de la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de Poisson se fija en 1, lo que significa que podemos usar el -score. El parámetro de dispersión. En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por lo tanto, se usa un valor para calcular los valores . En , mira estos dos ejemplos: $z$ $t$ $p$ R

Regresión logística

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

Tenga en cuenta que el parámetro de dispersión se fija en 1 y, por lo tanto, obtenemos valores . $z$

Regresión lineal normal (MCO)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

Aquí, tenemos que estimar la varianza residual (denotada como "error estándar residual") y, por lo tanto, usamos valores lugar de valores . Por supuesto, en muestras grandes, la distribución aproxima a la distribución normal y la diferencia no importa. $t$ $z$ $t$

Otra publicación relacionada se puede encontrar aquí .

— COOLSerdash
fuente

Muchas gracias por esta bonita publicación que responde a todas mis preguntas.

— user695652

Entonces, prácticamente, con respecto a la primera parte de su excelente respuesta: si por alguna razón tuviera como resultado la razón de probabilidades y la estadística de Wald, podría calcular el error estándar de estas como: SE = (1 / Wald- estadística) * ln (OR) ¿Es esto correcto? ¡Gracias!

— Sander W. van der Laan

@ SanderW.vanderLaan Gracias por tu comentario. Sí, creo que eso es correcto. Si realiza una regresión logística, las estadísticas de Wald serán el valor z.

— COOLSerdash

¡Qué gran respuesta! Tengo algunas sugerencias de revisión: personalmente, creo que esta respuesta es mezclar detalles con las listas de golpes. Pondría los detalles de cómo la regresión lineal está utilizando la varianza de los residuos en un gráfico separado.

— Haitao Du

También para el parámetro de dispersión y la conexión al código R, puede ser que podamos abrir otra sección o una línea de separación para hablar.

— Haitao Du