Existe un buen caso para tener una gran cantidad de contenedores, por ejemplo, contenedores para cada valor posible, siempre que se sospeche que el detalle de un histograma no sería ruido, sino una estructura fina interesante o importante.
Esto no está directamente relacionado con la motivación precisa para esta pregunta, ya que quiere una regla automatizada para un número óptimo de contenedores, pero es relevante para la pregunta en su conjunto.
Pasemos de inmediato a los ejemplos. En la demografía, el redondeo de las edades reportadas es común, especialmente pero no solo en países con alfabetización limitada. Lo que puede suceder es que muchas personas no conocen su fecha exacta de nacimiento, o existen razones sociales o personales para entender o exagerar su edad. La historia militar está llena de ejemplos de personas que mienten sobre su edad para evitar o buscar servicio en las fuerzas armadas. De hecho, muchos lectores conocerán a alguien que es muy tímido o que no es muy sincero acerca de su edad, incluso si no mienten al respecto en un censo. El resultado neto varía, pero como ya está implícito, generalmente se redondea, por ejemplo, las edades que terminan en 0 y 5 son mucho más comunes que las edades de un año menos o más.
Un fenómeno similar de preferencia de dígitos es común incluso para problemas muy diferentes. Con algunos métodos de medición anticuados, el último dígito de una medición informada debe medirse a simple vista mediante interpolación entre marcas graduadas. Este fue un estándar largo en meteorología con termómetros de mercurio. Se ha encontrado que colectivamente algunos dígitos reportados son más comunes que otros y que individualmente muchos de nosotros tenemos firmas, un patrón personal de favorecer algunos dígitos en lugar de otros. La distribución de referencia habitual aquí es el uniforme, es decir, siempre que el rango de mediciones posibles sea muchas veces mayor que la "unidad" de medición, se espera que los dígitos finales ocurran con la misma frecuencia. Entonces, si las temperaturas de sombra reportadas podrían cubrir un rango de (digamos) 50∘C los diez últimos dígitos, fracciones de un grado .0, .1, , .8, .9 deben aparecer con probabilidad 0.1. La calidad de esta aproximación debería ser buena incluso para un rango más limitado.⋯
Por cierto, mirar los últimos dígitos de los datos reportados es un método simple y bueno para verificar los datos fabricados, uno que es mucho más fácil de entender y menos problemático que el escrutinio actual de los primeros dígitos con una apelación a la Ley de Benford.
El resultado de los histogramas ahora debería estar claro. Una presentación tipo espiga puede servir para mostrar, o más generalmente para verificar, este tipo de estructura fina. Naturalmente, si nada de interés es discernible, el gráfico puede ser de poca utilidad.
Un ejemplo muestra la acumulación de edad del censo de Ghana de 1960. Ver http://www.stata.com/manuals13/rspikeplot.pdf
Hubo una buena revisión de las distribuciones de dígitos finales en
Preece, DA 1981. Distribuciones de dígitos finales en datos. El estadístico 30: 31-60.
Una nota sobre terminología: algunas personas escriben sobre los valores únicos de una variable cuando estarían mejor hablando de los valores distintos de una variable. Los diccionarios y las guías de uso aún aconsejan que "único" significa que ocurre solo una vez. Por lo tanto, las distintas edades informadas de una población podrían ser, en años, 0, 1, 2, etc., pero la gran mayoría de esas edades no serán exclusivas de una persona.