¿Existe un límite superior en el número de intervalos en un histograma?


10

He leído varios artículos y extractos de libros que explican cómo elegir un buen número de intervalos (bins) para el histograma de un conjunto de datos, pero me pregunto si hay un número máximo de intervalos basado en el número de puntos en un conjunto de datos o algún otro criterio.

Antecedentes: la razón por la que pregunto es que estoy tratando de escribir software basado en un procedimiento de un trabajo de investigación. Un paso en el procedimiento es crear varios histogramas a partir de un conjunto de datos, luego elegir la resolución óptima basada en una función característica (definida por los autores del artículo). Mi problema es que los autores no mencionan un límite superior para el número de intervalos para probar. (Tengo cientos de conjuntos de datos para analizar, y cada uno puede tener un número "óptimo" diferente de contenedores. Además, es importante que se seleccione el número óptimo de contenedores, por lo que mirar manualmente los resultados y elegir uno bueno no trabajo.)

¿Sería una buena guía establecer simplemente el número máximo de intervalos para que sea el número de puntos en el conjunto de datos, o hay algún otro criterio que generalmente se usa en estadísticas?


¿Te refieres a contenedores de igual tamaño (es decir, contenedores que tienen el mismo intervalo)?
Adam Ryczkowski

Creo que la respuesta dependerá del algoritmo que intente implementar. Creo que la pregunta está incompleta si no proporciona un enlace a ese trabajo de investigación.
Adam Ryczkowski

El número de puntos es ciertamente un máximo teórico, pero eso casi no sería un histograma, sería un diagrama de tiras o un diagrama de alfombra con un formato extraño.
Peter Flom - Restablece a Monica

1
En realidad, el número de puntos NO es realmente el máximo, lo siento, ¡no había tomado suficiente café! Algunos de los contenedores serán 0. Por ejemplo, suponga (para un ejemplo ridículamente simple) que tiene 3 puntos: 1.02 2.21 y 5.92. Si realmente desea un número máximo de contenedores, es claramente más de 3. Probablemente 6: 1-2, 2-3, 3-4, 4-5 y 5-6 (con intervalos abiertos y cerrados apropiados para evitar el doble binning)
Peter Flom - Restablece a Monica

1
@whuber: los valores son un conjunto de medidas de distancia del contorno de un objeto desde su centroide, normalizado a [0, 1]. El documento utiliza el binning de estas distancias en bins, encontrando el óptimo minimizando la suma del error de cuantización (del binning) más el pdf del histograma. A lo mejor de mi entendimiento. 2JJ
Wayne

Respuestas:


6

Realmente no hay ningún límite superior difícil, pero por otro lado, en la mayoría de las situaciones, una vez que obtienes todas las observaciones únicas en su propio contenedor, los contenedores más finos solo sirven para determinar sus posiciones con mayor precisión sin transmitir mucho más. por ejemplo, compare estos:

histograma con 30 contenedores
histograma con 100 contenedores

Excepto en algunas circunstancias muy particulares, es probable que no haya ningún beneficio práctico en la segunda trama, y ​​no tanto en la primera. Si sus datos son continuos, esto probablemente sea mucho más allá de un número útil de contenedores.

Entonces, en la mayoría de las situaciones, eso parece al menos un límite superior práctico: cada observación única en su propio contenedor.

(Si no es en beneficio de más contenedores de uno por la observación única, probablemente debería estar haciendo un rugplot o una Stripchart jitter para obtener ese tipo de información) - algo así como lo que se hace en los márgenes de estos histogramas:

trama de histograma con jitter
histograma con diagrama de tira

(Esos histogramas se toman de esta respuesta , cerca del final)


5

Existe un buen caso para tener una gran cantidad de contenedores, por ejemplo, contenedores para cada valor posible, siempre que se sospeche que el detalle de un histograma no sería ruido, sino una estructura fina interesante o importante.

Esto no está directamente relacionado con la motivación precisa para esta pregunta, ya que quiere una regla automatizada para un número óptimo de contenedores, pero es relevante para la pregunta en su conjunto.

Pasemos de inmediato a los ejemplos. En la demografía, el redondeo de las edades reportadas es común, especialmente pero no solo en países con alfabetización limitada. Lo que puede suceder es que muchas personas no conocen su fecha exacta de nacimiento, o existen razones sociales o personales para entender o exagerar su edad. La historia militar está llena de ejemplos de personas que mienten sobre su edad para evitar o buscar servicio en las fuerzas armadas. De hecho, muchos lectores conocerán a alguien que es muy tímido o que no es muy sincero acerca de su edad, incluso si no mienten al respecto en un censo. El resultado neto varía, pero como ya está implícito, generalmente se redondea, por ejemplo, las edades que terminan en 0 y 5 son mucho más comunes que las edades de un año menos o más.

Un fenómeno similar de preferencia de dígitos es común incluso para problemas muy diferentes. Con algunos métodos de medición anticuados, el último dígito de una medición informada debe medirse a simple vista mediante interpolación entre marcas graduadas. Este fue un estándar largo en meteorología con termómetros de mercurio. Se ha encontrado que colectivamente algunos dígitos reportados son más comunes que otros y que individualmente muchos de nosotros tenemos firmas, un patrón personal de favorecer algunos dígitos en lugar de otros. La distribución de referencia habitual aquí es el uniforme, es decir, siempre que el rango de mediciones posibles sea muchas veces mayor que la "unidad" de medición, se espera que los dígitos finales ocurran con la misma frecuencia. Entonces, si las temperaturas de sombra reportadas podrían cubrir un rango de (digamos) 50C los diez últimos dígitos, fracciones de un grado .0, .1, , .8, .9 deben aparecer con probabilidad 0.1. La calidad de esta aproximación debería ser buena incluso para un rango más limitado.

Por cierto, mirar los últimos dígitos de los datos reportados es un método simple y bueno para verificar los datos fabricados, uno que es mucho más fácil de entender y menos problemático que el escrutinio actual de los primeros dígitos con una apelación a la Ley de Benford.

El resultado de los histogramas ahora debería estar claro. Una presentación tipo espiga puede servir para mostrar, o más generalmente para verificar, este tipo de estructura fina. Naturalmente, si nada de interés es discernible, el gráfico puede ser de poca utilidad.

Un ejemplo muestra la acumulación de edad del censo de Ghana de 1960. Ver http://www.stata.com/manuals13/rspikeplot.pdf

Hubo una buena revisión de las distribuciones de dígitos finales en

Preece, DA 1981. Distribuciones de dígitos finales en datos. El estadístico 30: 31-60.

Una nota sobre terminología: algunas personas escriben sobre los valores únicos de una variable cuando estarían mejor hablando de los valores distintos de una variable. Los diccionarios y las guías de uso aún aconsejan que "único" significa que ocurre solo una vez. Por lo tanto, las distintas edades informadas de una población podrían ser, en años, 0, 1, 2, etc., pero la gran mayoría de esas edades no serán exclusivas de una persona.


4

No hay un máximo duro para el número de contenedores en un histograma. Si la variable que se traza es continua, entonces se puede hacer un argumento para un número infinito de categorías (y el histograma se convierte básicamente en un diagrama de alfombra).

El número de puntos en el conjunto de datos no es un límite superior apropiado. Considere un conjunto de datos que contiene dos valores: 1 y 1000. Tener dos contenedores no sería apropiado.

Dos métodos prácticos para determinar un límite superior son: a) Determinar el redondeo subyacente de los datos. Por ejemplo, si los datos son enteros, entonces tiene sentido tener contenedores que sean de ancho entero. b) Observar la resolución máxima visible (p. ej., número de píxeles en la dimensión horizontal que puede usarse para trazar)

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.