Histograma con contenedores uniformes vs no uniformes


10

Esta pregunta describe la diferencia básica entre un histograma uniforme y otro no uniforme. Y esta pregunta discute la regla general para elegir el número de contenedores de un histograma uniforme que optimiza (en cierto sentido) el grado en que el histograma representa la distribución de la que se extrajeron las muestras de datos.

Parece que no puedo encontrar el mismo tipo de discusión de "óptima" sobre histogramas uniformes versus no uniformes. Tengo una distribución no paramétrica agrupada con valores atípicos lejanos, por lo que un histograma no uniforme intuitivamente tiene más sentido. Pero me encantaría ver un análisis más preciso de las siguientes dos preguntas:

  1. ¿Cuándo es mejor un histograma de depósito uniforme que uno no uniforme?
  2. ¿Cuál es un buen número de contenedores para un histograma no uniforme?

Para un histograma no uniforme, se me considera el caso más simple en el que tomamos n muestras de una distribución desconocida, ordenamos los n valores resultantes y los separamos en k contenedores de modo que cada bin tenga knnckcmaximini+1


No hay suficiente información para responder (2). ¿Cuáles son las condiciones de no uniformidad? ¿Puedes elegir cualquier contenedor que te guste o hay alguna restricción? ¿Qué quieres optimizar? por ejemplo, ¿desea un error cuadrático medio mínimo integrado entre y ? ¿O algo mas? ff^
Glen_b -Reinstale a Monica el

@Glen_b Describo con un poco más de detalle el tipo de histograma que estoy considerando en el caso bin no uniforme.
Alan Turing

Revisa tu edición. ¿Quiso decir "n = cm" en lugar de "cn"? También hay un error tipográfico posterior.
Glen_b -Reinstalar a Mónica el

¿Estás tratando de transmitir algo como esto ?
Glen_b -Reinstate Monica el

También vea esta discusión sobre un compromiso entre eso y el histograma habitual
Glen_b -Reinstate Monica el

Respuestas:


7

¿Cuándo es mejor un histograma de depósito uniforme que uno no uniforme?

Esto requiere algún tipo de identificación de lo que buscaríamos optimizar; muchas personas intentan optimizar el error cuadrático medio integrado promedio, pero en muchos casos creo que de alguna manera se pierde el punto de hacer un histograma; a menudo (para mi ojo) 'excesos suaves'; para una herramienta exploratoria como un histograma, puedo tolerar mucha más aspereza, ya que la aspereza misma me da una idea de hasta qué punto debo "suavizar" a simple vista; Tiendo a duplicar al menos el número habitual de contenedores de tales reglas, a veces mucho más. Tiendo a estar de acuerdo con Andrew Gelman en esto; de hecho, si mi interés realmente estaba obteniendo un buen AIMSE, probablemente no debería considerar un histograma de todos modos.

Entonces necesitamos un criterio.

Permítanme comenzar discutiendo algunas de las opciones de histogramas de área no igual:

Hay algunos enfoques que suavizan más (menos contenedores más anchos) en áreas de menor densidad y tienen contenedores más estrechos donde la densidad es más alta, como los histogramas de "área igual" o "conteo igual". Su pregunta editada parece considerar la posibilidad de contar igual.

La histogramfunción en el latticepaquete de R puede producir barras de aproximadamente igual área:

library("lattice")
histogram(islands^(1/3))  # equal width
histogram(islands^(1/3),breaks=NULL,equal.widths=FALSE)  # approx. equal area

comparación de igual ancho e igual área

Esa inmersión justo a la derecha del contenedor más a la izquierda es aún más clara si tomas la cuarta raíz; con contenedores de igual ancho no puede verlo a menos que use de 15 a 20 veces más contenedores, y luego la cola derecha se ve terrible.

Hay un histograma de igual número de aquí , con R-código, que utiliza la muestra-cuantiles para encontrar la rotura.

Por ejemplo, en los mismos datos que el anterior, aquí hay 6 contenedores con (con suerte) 8 observaciones cada uno:

histograma de conteo

ibr=quantile(islands^(1/3),0:6/6)
hist(islands^(1/3),breaks=ibr,col=5,main="")

Esta pregunta de CV apunta a un artículo de Denby y Mallows cuya versión se puede descargar desde aquí y que describe un compromiso entre contenedores de igual ancho y contenedores de igual área.

También aborda las preguntas que tenía hasta cierto punto.

Quizás podría considerar el problema como uno de identificar las interrupciones en un proceso de Poisson constante por partes. Eso llevaría a trabajar así . También existe la posibilidad relacionada de ver los algoritmos de tipo de agrupación / clasificación en (digamos) los recuentos de Poisson, algunos de los cuales generarían varios contenedores. La agrupación se ha utilizado en histogramas 2D ( imágenes , en efecto) para identificar regiones que son relativamente homogéneas.

-

Si tuviéramos un histograma de conteo igual, y algún criterio para optimizar, podríamos probar un rango de conteos por contenedor y evaluar el criterio de alguna manera. El documento de Wand mencionado aquí [ documento , o documento de trabajo pdf ] y algunas de sus referencias (por ejemplo, a los documentos de Sheather et al., Por ejemplo) resumen la estimación del ancho del contenedor "enchufable" basada en ideas de suavizado del núcleo para optimizar AIMSE; En términos generales, ese tipo de enfoque debería ser adaptable a esta situación, aunque no recuerdo haberlo hecho.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.