¿Cuándo es mejor un histograma de depósito uniforme que uno no uniforme?
Esto requiere algún tipo de identificación de lo que buscaríamos optimizar; muchas personas intentan optimizar el error cuadrático medio integrado promedio, pero en muchos casos creo que de alguna manera se pierde el punto de hacer un histograma; a menudo (para mi ojo) 'excesos suaves'; para una herramienta exploratoria como un histograma, puedo tolerar mucha más aspereza, ya que la aspereza misma me da una idea de hasta qué punto debo "suavizar" a simple vista; Tiendo a duplicar al menos el número habitual de contenedores de tales reglas, a veces mucho más. Tiendo a estar de acuerdo con Andrew Gelman en esto; de hecho, si mi interés realmente estaba obteniendo un buen AIMSE, probablemente no debería considerar un histograma de todos modos.
Entonces necesitamos un criterio.
Permítanme comenzar discutiendo algunas de las opciones de histogramas de área no igual:
Hay algunos enfoques que suavizan más (menos contenedores más anchos) en áreas de menor densidad y tienen contenedores más estrechos donde la densidad es más alta, como los histogramas de "área igual" o "conteo igual". Su pregunta editada parece considerar la posibilidad de contar igual.
La histogram
función en el lattice
paquete de R puede producir barras de aproximadamente igual área:
library("lattice")
histogram(islands^(1/3)) # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE) # approx. equal area
Esa inmersión justo a la derecha del contenedor más a la izquierda es aún más clara si tomas la cuarta raíz; con contenedores de igual ancho no puede verlo a menos que use de 15 a 20 veces más contenedores, y luego la cola derecha se ve terrible.
Hay un histograma de igual número de aquí , con R-código, que utiliza la muestra-cuantiles para encontrar la rotura.
Por ejemplo, en los mismos datos que el anterior, aquí hay 6 contenedores con (con suerte) 8 observaciones cada uno:
ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")
Esta pregunta de CV apunta a un artículo de Denby y Mallows cuya versión se puede descargar desde aquí y que describe un compromiso entre contenedores de igual ancho y contenedores de igual área.
También aborda las preguntas que tenía hasta cierto punto.
Quizás podría considerar el problema como uno de identificar las interrupciones en un proceso de Poisson constante por partes. Eso llevaría a trabajar así . También existe la posibilidad relacionada de ver los algoritmos de tipo de agrupación / clasificación en (digamos) los recuentos de Poisson, algunos de los cuales generarían varios contenedores. La agrupación se ha utilizado en histogramas 2D ( imágenes , en efecto) para identificar regiones que son relativamente homogéneas.
-
Si tuviéramos un histograma de conteo igual, y algún criterio para optimizar, podríamos probar un rango de conteos por contenedor y evaluar el criterio de alguna manera. El documento de Wand mencionado aquí [ documento , o documento de trabajo pdf ] y algunas de sus referencias (por ejemplo, a los documentos de Sheather et al., Por ejemplo) resumen la estimación del ancho del contenedor "enchufable" basada en ideas de suavizado del núcleo para optimizar AIMSE; En términos generales, ese tipo de enfoque debería ser adaptable a esta situación, aunque no recuerdo haberlo hecho.