El papel canónico aquí fue
Wilk, MB y R. Gnanadesikan. 1968. Probabilidad de los métodos de trazado para el análisis de datos. Biometrika 55: 1-17
y todavía paga la lectura cercana y repetida.
Un tratamiento lúcido con muchos buenos ejemplos fue dado por
Cleveland, WS 1993. Visualización de datos. Summit, NJ: Hobart Press.
y vale la pena mencionar los más introductorios
Cleveland, WS 1994. Los elementos de graficar datos. Summit, NJ: Hobart Press.
Otros textos que contienen una exposición razonable a este enfoque incluyen
Davison, AC 2003. Modelos estadísticos. Cambridge: Cambridge University Press.
Rice, JA 2007. Estadística matemática y análisis de datos. Belmont, CA: Duxbury.
Aparte de eso, no sé nada de lo que pides. Una vez que haya visto el punto de las gráficas cuantil-cuantil, mostrar en detalle que los histogramas son una alternativa de segundo orden no parece interesante ni útil, demasiado parecido a disparar peces en un barril.
Pero resumiría así:
Binning suprime los detalles, y los detalles son a menudo importantes. Esto puede aplicarse no solo a lo que está sucediendo exactamente en las colas sino también a lo que está sucediendo en el medio. Por ejemplo, la granularidad o la multimodalidad pueden ser importantes, así como la asimetría o el peso de la cola.
El binning requiere decisiones sobre el origen y el ancho del bin, lo que puede afectar la apariencia de los histogramas de manera poderosa, por lo que es difícil ver qué es real y cuál es un efecto secundario de las elecciones. Si su software toma estas decisiones por usted, los problemas persisten. (Por ejemplo, las opciones de ubicación predeterminadas a menudo se diseñan para que no use "demasiadas ubicaciones", es decir, con el motivo de suavizar un poco).
El problema gráfico y psicológico de comparar dos histogramas es más complicado que el de juzgar el ajuste de un conjunto de puntos a una línea recta.
[Agregado el 27 de septiembre de 2017] 4. Las gráficas de cuantiles se pueden variar muy fácilmente cuando se considera una o más escalas transformadas. Por transformación aquí me refiero a una transformación no lineal, no p. Ej. Escalar por un máximo o estandarización por (valor-media) / SD. Si los cuantiles son solo las estadísticas de orden, entonces todo lo que necesita hacer es aplicar la transformación, ya que, por ejemplo, el logaritmo del máximo es idénticamente el máximo de los logaritmos, y así sucesivamente. (Trivialmente, la reciprocidad invierte el orden). Incluso si traza los cuantiles seleccionados que se basan en estadísticas de dos órdenes, generalmente solo se interpolan entre dos valores de datos originales y el efecto de la interpolación es trivial. Por el contrario, los histogramas en el registro u otras escalas transformadas requieren una nueva decisión sobre el origen y el ancho del contenedor que no es especialmente difícil, pero no es trivial. Lo mismo puede decirse de la estimación de densidad como una forma de resumir la distribución.