Las estimaciones de los coeficientes y las intersecciones en la regresión logística (y cualquier GLM) se encuentran a través de la estimación de máxima verosimilitud (MLE). Estas estimaciones se denotan con un sombrero sobre los parámetros, algo así como . Nuestro parámetro de interés se denota y generalmente es 0, ya que queremos probar si el coeficiente difiere de 0 o no. A partir de la teoría asintótica de MLE, sabemos que la diferencia entre y se distribuirá aproximadamente normalmente con media 0 (los detalles se pueden encontrar en cualquier libro de estadística matemática como Larry Wasserman Todas las estadísticas ) . Recuerde que los errores estándar no son más que theta0 theta theta0σW=( β -β 0 )θ^θ0θ^θ0desviaciones estándar de las estadísticas (Sokal y Rohlf escriben en su libro Biometry : "una estadística es cualquiera de las muchas cantidades estadísticas calculadas o estimadas", por ejemplo, la media, la mediana, la desviación estándar, el coeficiente de correlación, el coeficiente de regresión, ...). Dividir una distribución normal con media 0 y desviación estándar por su desviación estándar dará como resultado la distribución normal estándar con media 0 y desviación estándar 1. La estadística de Wald se define como (por ejemplo, Wasserman (2006): Todas las estadísticas , páginas 153, 214-215):
o
σW2=(β-β0)2
W=(β^−β0)seˆ(β^)∼N(0,1)
χ21χ22W2=(β^−β0)2Varˆ(β^)∼χ21
La segunda forma surge del hecho de que el cuadrado de una distribución normal estándar es la con 1 grado de libertad (la suma de dos distribuciones normales estándar al cuadrado sería una con 2 grados de libertad y así sucesivamente).
χ21χ22
Debido a que el parámetro de interés suele ser 0 (es decir, ), la estadística de Wald se simplifica a
Que es lo que usted describió: la estimación del coeficiente dividido por su error estándar.β0=0
W=β^seˆ(β^)∼N(0,1)
¿Cuándo es una y cuándo se usa un valor ?zt
La elección entre un valor o un valor depende de cómo se haya calculado el error estándar de los coeficientes. Debido a que el estadístico de Wald se distribuye asintóticamente como una distribución normal estándar, podemos usar la puntuación para calcular el valor . Cuando, además de los coeficientes, también tenemos que estimar la varianza residual, se usa un valor lugar del valor . En los mínimos cuadrados ordinarios (OLS, regresión lineal normal), la matriz de varianza-covarianza de los coeficientes es dondeztzptzVar[β^|X]=σ2(X′X)−1σ2es la varianza de los residuos (que es desconocida y debe estimarse a partir de los datos) y es la matriz de diseño . En OLS, los errores estándar de los coeficientes son las raíces cuadradas de los elementos diagonales de la matriz de varianza-covarianza. Como no sabemos , tenemos que reemplazarlo por su estimación , entonces: . Ahora ese es el punto: dado que tenemos que estimar la varianza de los residuos para calcular el error estándar de los coeficientes, necesitamos usar un valor y la distribución .Xσ2σ^2=s2 ttseˆ(βj^)=s2(X′X)−1jj−−−−−−−−−√tt
En la regresión logística (y de Poisson), la varianza de los residuos está relacionada con la media. Si , la media es y la varianza es por lo que la varianza y la media están relacionadas. En la regresión logística y de Poisson, pero no en la regresión con errores gaussianos, conocemos la varianza esperada y no tenemos que estimarla por separado. El parámetro de dispersión indica si tenemos más o menos de la varianza esperada. Si esto significa que observamos la cantidad esperada de varianza, mientras que significa que tenemos menos de la varianza esperada (llamada subdispersión) yE ( Y ) = n p Var ( Y ) = n p ( 1 - p ) ϕ ϕ = 1 ϕ < 1 ϕ > 1 z t pY∼Bin(n,p)E(Y)=npVar(Y)=np(1−p)ϕϕ=1ϕ<1ϕ>1significa que tenemos una varianza adicional más allá de la esperada (llamada sobredispersión). El parámetro de dispersión en la regresión logística y de Poisson se fija en 1, lo que significa que podemos usar el -score. El parámetro de dispersión. En otros tipos de regresión, como la regresión lineal normal, tenemos que estimar la varianza residual y, por lo tanto, se usa un valor para calcular los valores . En , mira estos dos ejemplos:ztpR
Regresión logística
mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
mydata$rank <- factor(mydata$rank)
my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")
summary(my.mod)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.989979 1.139951 -3.500 0.000465 ***
gre 0.002264 0.001094 2.070 0.038465 *
gpa 0.804038 0.331819 2.423 0.015388 *
rank2 -0.675443 0.316490 -2.134 0.032829 *
rank3 -1.340204 0.345306 -3.881 0.000104 ***
rank4 -1.551464 0.417832 -3.713 0.000205 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Tenga en cuenta que el parámetro de dispersión se fija en 1 y, por lo tanto, obtenemos valores .z
Regresión lineal normal (MCO)
summary(lm(Fertility~., data=swiss))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Aquí, tenemos que estimar la varianza residual (denotada como "error estándar residual") y, por lo tanto, usamos valores lugar de valores . Por supuesto, en muestras grandes, la distribución aproxima a la distribución normal y la diferencia no importa.z ttzt
Otra publicación relacionada se puede encontrar aquí .