Gráficos PP versus gráficos QQ


39

¿Cuál es la diferencia entre gráficos de probabilidad, gráficos de PP y gráficos de QQ cuando se trata de analizar una distribución ajustada a los datos?


44
Parece que wikipedia puede ayudarte con este: diagrama de probabilidad . QQ plot , PP plot . Si tiene una pregunta más específica, ¡por favor aclare!
vector07

¡Gracias, creo que estaba confundiendo la gráfica de PP y la gráfica de probabilidad!
kay

Respuestas:


41

Como señala @ vector07 , la gráfica de probabilidad es la categoría más abstracta de la cual las gráficas pp y las gráficas qq son miembros. Por lo tanto, discutiré la distinción entre los dos últimos. La mejor manera de comprender las diferencias es pensar en cómo se construyen, y comprender que necesita reconocer la diferencia entre los cuantiles de una distribución y la proporción de la distribución por la que ha pasado cuando alcanza un cuantil determinado. Puede ver la relación entre estos trazando la función de distribución acumulativa (CDF) de una distribución. Por ejemplo, considere la distribución normal estándar:

ingrese la descripción de la imagen aquí

Vemos que aproximadamente el 68% del eje y (región entre líneas rojas) corresponde a 1/3 del eje x (región entre líneas azules). Eso significa que cuando usamos la proporción de la distribución que hemos pasado para evaluar la coincidencia entre dos distribuciones (es decir, usamos un diagrama de pp), obtendremos mucha resolución en el centro de las distribuciones, pero menos en las colas Por otro lado, cuando usamos los cuantiles para evaluar la coincidencia entre dos distribuciones (es decir, usamos un diagrama qq), obtendremos una resolución muy buena en las colas, pero menos en el centro. (Debido a que los analistas de datos suelen estar más preocupados por las colas de una distribución, lo que tendrá más efecto en la inferencia, por ejemplo, los gráficos qq son mucho más comunes que los gráficos pp).

Para ver estos hechos en acción, recorreré la construcción de un diagrama de pp y un diagrama de qq. (También paso por la construcción de un diagrama qq verbalmente / más lentamente aquí: el diagrama QQ no coincide con el histograma ). No sé si usa R, pero espero que se explique por sí mismo:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

ingrese la descripción de la imagen aquí

Desafortunadamente, estas gráficas no son muy distintivas, porque hay pocos datos y estamos comparando una distribución teórica normal con la distribución teórica correcta, por lo que no hay nada especial que ver ni en el centro ni en las colas de la distribución. Para demostrar mejor estas diferencias, trazo una distribución t (cola gruesa) con 4 grados de libertad, y una distribución bimodal a continuación. Las colas gruesas son mucho más distintivas en la gráfica qq, mientras que la bimodalidad es más distintiva en la gráfica pp.

ingrese la descripción de la imagen aquí ingrese la descripción de la imagen aquí


14
@ AleksandrH Realmente apreciamos su preocupación por los estudiantes. Sin embargo, su suposición implícita de que este sitio es solo para estudiantes que son nuevos en las estadísticas es incorrecta; y su insinuación de que las "respuestas verbales" son inapropiadas para los estudiantes simplemente no resiste la realidad, como lo atestiguarán muchas respuestas "verbales" en este sitio. Una forma más constructiva de expresar su queja es con un ejemplo: muéstrenos cómo mejorar nuestras respuestas e inspírenos a emularlo, publicando aquí una respuesta que cumpla con sus estándares para abordar las necesidades de los nuevos estudiantes.
whuber

12

Aquí hay una definición de v8doc.sas.com :

Una gráfica PP compara la función de distribución acumulativa empírica de un conjunto de datos con una función de distribución acumulativa teórica especificada F (·). Una gráfica QQ compara los cuantiles de una distribución de datos con los cuantiles de una distribución teórica estandarizada de una familia específica de distribuciones.

En el texto, también mencionan:

  • diferencias con respecto a la forma en que se construyen e interpretan las parcelas PP y QQ.
  • ventajas de usar uno u otro, con respecto a la comparación de distribuciones empíricas y teóricas.

Referencia :

SAS Institute Inc., SAS OnlineDoc®, Versión 8, Cary, NC: SAS Institute Inc., 1999

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.