¿Cuál es la diferencia entre gráficos de probabilidad, gráficos de PP y gráficos de QQ cuando se trata de analizar una distribución ajustada a los datos?
¿Cuál es la diferencia entre gráficos de probabilidad, gráficos de PP y gráficos de QQ cuando se trata de analizar una distribución ajustada a los datos?
Respuestas:
Como señala @ vector07 , la gráfica de probabilidad es la categoría más abstracta de la cual las gráficas pp y las gráficas qq son miembros. Por lo tanto, discutiré la distinción entre los dos últimos. La mejor manera de comprender las diferencias es pensar en cómo se construyen, y comprender que necesita reconocer la diferencia entre los cuantiles de una distribución y la proporción de la distribución por la que ha pasado cuando alcanza un cuantil determinado. Puede ver la relación entre estos trazando la función de distribución acumulativa (CDF) de una distribución. Por ejemplo, considere la distribución normal estándar:
Vemos que aproximadamente el 68% del eje y (región entre líneas rojas) corresponde a 1/3 del eje x (región entre líneas azules). Eso significa que cuando usamos la proporción de la distribución que hemos pasado para evaluar la coincidencia entre dos distribuciones (es decir, usamos un diagrama de pp), obtendremos mucha resolución en el centro de las distribuciones, pero menos en las colas Por otro lado, cuando usamos los cuantiles para evaluar la coincidencia entre dos distribuciones (es decir, usamos un diagrama qq), obtendremos una resolución muy buena en las colas, pero menos en el centro. (Debido a que los analistas de datos suelen estar más preocupados por las colas de una distribución, lo que tendrá más efecto en la inferencia, por ejemplo, los gráficos qq son mucho más comunes que los gráficos pp).
Para ver estos hechos en acción, recorreré la construcción de un diagrama de pp y un diagrama de qq. (También paso por la construcción de un diagrama qq verbalmente / más lentamente aquí: el diagrama QQ no coincide con el histograma ). No sé si usa R, pero espero que se explique por sí mismo:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
Desafortunadamente, estas gráficas no son muy distintivas, porque hay pocos datos y estamos comparando una distribución teórica normal con la distribución teórica correcta, por lo que no hay nada especial que ver ni en el centro ni en las colas de la distribución. Para demostrar mejor estas diferencias, trazo una distribución t (cola gruesa) con 4 grados de libertad, y una distribución bimodal a continuación. Las colas gruesas son mucho más distintivas en la gráfica qq, mientras que la bimodalidad es más distintiva en la gráfica pp.
Aquí hay una definición de v8doc.sas.com :
Una gráfica PP compara la función de distribución acumulativa empírica de un conjunto de datos con una función de distribución acumulativa teórica especificada F (·). Una gráfica QQ compara los cuantiles de una distribución de datos con los cuantiles de una distribución teórica estandarizada de una familia específica de distribuciones.
En el texto, también mencionan:
Referencia :
SAS Institute Inc., SAS OnlineDoc®, Versión 8, Cary, NC: SAS Institute Inc., 1999