+1 a @NickSabbe, porque 'la trama solo te dice que "algo está mal", que a menudo es la mejor manera de usar una trama qq (ya que puede ser difícil entender cómo interpretarlos). Sin embargo, es posible aprender a interpretar un diagrama qq pensando en cómo hacer uno.
Comenzaría clasificando sus datos, luego ascendería desde el valor mínimo tomando cada uno como un porcentaje igual. Por ejemplo, si tenía 20 puntos de datos, cuando contaba el primero (el mínimo), se decía a sí mismo: "Conté el 5% de mis datos". Seguiría este procedimiento hasta llegar al final, en cuyo punto habría pasado el 100% de sus datos. Estos valores porcentuales se pueden comparar con los mismos valores porcentuales de la normal teórica correspondiente (es decir, la normal con la misma media y DE).
Cuando vaya a trazar estos, descubrirá que tiene problemas con el último valor, que es del 100%, porque cuando ha superado el 100% de una normalidad teórica, está "en" el infinito. Este problema se trata agregando una pequeña constante al denominador en cada punto de sus datos antes de calcular los porcentajes. Un valor típico sería agregar 1 al denominador; por ejemplo, llamaría a su primer (de 20) punto de datos 1 / (20 + 1) = 5%, y su último sería 20 / (20 + 1) = 95%. Ahora, si traza estos puntos contra una normal teórica correspondiente, tendrá un diagrama de pp(para graficar probabilidades contra probabilidades). Tal diagrama probablemente mostraría las desviaciones entre su distribución y una normal en el centro de la distribución. Esto se debe a que el 68% de una distribución normal se encuentra dentro de +/- 1 SD, por lo que los gráficos de pp tienen una resolución excelente allí y una resolución pobre en otros lugares. (Para más información sobre este punto, puede ser útil leer mi respuesta aquí: PP-plots vs. QQ-plots ).
A menudo, estamos más preocupados por lo que está sucediendo en las colas de nuestra distribución. Para obtener una mejor resolución allí (y, por lo tanto, una resolución peor en el medio), podemos construir un diagrama qq en su lugar. Hacemos esto tomando nuestros conjuntos de probabilidades y pasándolos a través del inverso del CDF de la distribución normal (esto es como leer la tabla z en la parte posterior de un libro de estadísticas al revés: lees una probabilidad y lees un z- Puntuación). El resultado de esta operación son dos conjuntos de cuantiles , que pueden representarse entre sí de manera similar.
@whuber tiene razón en que la línea de referencia se traza después (típicamente) al encontrar la línea que mejor se ajusta a través del 50% central de los puntos (es decir, desde el primer cuartil hasta el tercero). Esto se hace para que la trama sea más fácil de leer. Con esta línea, puede interpretar que el gráfico le muestra si los cuantiles de su distribución divergen progresivamente de una verdadera normal a medida que avanza hacia las colas. (Tenga en cuenta que la posición de los puntos más alejados del centro no son realmente independientes de los que están más cerca; por lo tanto, el hecho de que, en su histograma específico, las colas parecen unirse después de que los 'hombros' difieran no significa que los cuantiles ahora son lo mismo otra vez.)
X- 3y- .2datos en esa cola de su distribución que en una normal teórica. En otras palabras:
- si ambas colas giran en sentido antihorario, tiene colas pesadas ( leptokurtosis ),
- si ambas colas giran en el sentido de las agujas del reloj, tienes colas claras (platykurtosis),
- si su cola derecha gira en sentido antihorario y su cola izquierda gira en sentido horario, tiene una inclinación derecha
- si su cola izquierda gira en sentido antihorario y su cola derecha gira en sentido horario, se ha torcido