Bandas de confianza para la línea QQ

Esta pregunta no pertenece específicamente R, pero elegí usarla Rpara ilustrarla.

Considere el código para producir bandas de confianza alrededor de una línea qq (normal):

library(car)
library(MASS)
b0<-lm(deaths~.,data=road)
qqPlot(b0$resid,pch=16,line="robust")

Estoy buscando una explicación de (o un enlace alternativo a un documento en papel / en línea que explique) cómo se construyen estas bandas de confianza (he visto una referencia a Fox 2002 en los archivos de ayuda de R, pero lamentablemente no tengo esto libro a mano).

Mi pregunta se hará más precisa con un ejemplo. Así es como se Rcalculan estos elementos de configuración particulares (he acortado / simplificado el código utilizado en car::qqPlot)

x<-b0$resid
good<-!is.na(x)
ord<-order(x[good])
ord.x<-x[good][ord]
n<-length(ord.x)
P<-ppoints(n)
z<-qnorm(P)
plot(z,ord.x,type="n")
coef<-coef(rlm(ord.x~z))
a<-coef[1]
b<-coef[2]
abline(a,b,col="red",lwd=2)
conf<-0.95
zz<-qnorm(1-(1-conf)/2)
SE<-(b/dnorm(z))*sqrt(P*(1-P)/n)     #[WHY?]
fit.value<-a+b*z
upper<-fit.value+zz*SE
lower<-fit.value-zz*SE
lines(z,upper,lty=2,lwd=2,col="red")
lines(z,lower,lty=2,lwd=2,col="red")

La pregunta es: ¿cuál es la justificación de la fórmula utilizada para calcular estos SE (por ejemplo, la línea SE<-(b/dnorm(z))*sqrt(P*(1-P)/n) ).

FWIW esta fórmula es muy diferente de la fórmula de las bandas de confianza habituales utilizadas en la regresión lineal

confidence-interval linear-model qq-plot

— usuario603
fuente

Espero que tenga que ver con la distribución de estadísticas de pedidos

y más particularmenteel resultado asintótico:

F_{X_{(k)}} (X) = \frac{norte!}{(k - 1)! (norte - k)!} [F_{X} (X)]^{k - 1} [1 - F_{X} (X)]^{norte - k} F_{X} (X)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$

X_{(⌈ norte pag ⌉)} \sim UN norte (F^{- 1} (pag), \frac{pag (1 - pag)}{norte [F (F^{- 1} (pag))]^{2}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

— Glen_b -Reinstalar Monica

@Glen_b tiene razón. John Fox escribe en las páginas 35-36: "El error estándar de la orden estadística

X_{(i)}

$X_{(i)}$

S mi (X_{(yo)}) = \frac{\hat{σ}}{pag (z_{yo})} \sqrt{\frac{{PAG}_{yo} (1 - {PAG}_{yo})}{norte}}

$\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$

p (z)

$p(z)$

P (z)

$P(z)$

{\hat{X}}_{(i)} = \hat{μ} + \hat{σ} z_{i}

$\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$

{\hat{X}}_{(i)} \pm 2 \times S E (X_{(i)})

$\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$

f (F^{- 1} (p))

$f(F^{-1}(p))$

(p (z_{i}) / \hat{σ})

$(p(z_i)/\hat{\sigma})$

F_{X_{(k)}} (X) = \frac{norte!}{(k - 1)! (norte - k)!} [F_{X} (X)]^{k - 1} [1 - F_{X} (X)]^{norte - k} F_{X} (X)

$f_{X_{(k)}}(x) =\frac{n!}{(k-1)!(n-k)!}[F_X(x)]^{k-1}[1-F_X(x)]^{n-k} f_X(x)$

X_{(⌈ norte pag ⌉)} \sim UN norte (F^{- 1} (pag), \frac{pag (1 - pag)}{norte [F (F^{- 1} (pag))]^{2}})

$X_{(\lceil np \rceil)} \sim AN\left(F^{-1}(p),\frac{p(1-p)}{n[f(F^{-1}(p))]^2}\right)$

Como COOLSerdash menciona en los comentarios, John Fox [1] escribe en las páginas 35-36:

El error estándar de la estadística de orden $X_{(i)}$ es
$S mi (X_{(yo)}) = \frac{\hat{σ}}{pag (z_{yo})} \sqrt{\frac{{PAG}_{yo} (1 - {PAG}_{yo})}{norte}}$ $\mathrm{SE}(X_{(i)})=\frac{\hat{\sigma}}{p(z_i)}\sqrt{\frac{P_i(1-P_i)}{n}}$ dónde $p(z)$ es la función de densidad de probabilidad correspondiente a la FCD $P(z)$ . Los valores a lo largo de la línea ajustada están dados por $\widehat{X}_{(i)}=\hat{\mu}+\hat{\sigma}z_{i}$ . Por lo tanto, un "sobre" de confianza aproximado del 95% alrededor de la línea ajustada es $\widehat{X}_{(i)}\pm 2\times \mathrm{SE}(X_{(i)})$ .

Entonces solo tenemos que reconocer que $f(F^{-1}(p))$ es estimado por $(p(z_i)/\hat{\sigma})$ .

[1] Fox, J. (2008),
Análisis de regresión aplicada y modelos lineales generalizados, 2ª ed. ,
Sage Publications, Inc

— Glen_b -Reinstate a Monica
fuente