Mi consejo en general sería que es aún más crítico que en 1-D suavizar siempre que sea posible, es decir, hacer algo como la estimación de la densidad del núcleo (o algún otro método, como la estimación log-spline), que tiende a ser sustancialmente más eficiente que usar histogramas Como señala Whuber, es bastante posible dejarse engañar por la aparición de un histograma, especialmente con pocos contenedores y tamaños de muestra pequeños a moderados.
Si está tratando de optimizar el error cuadrático integrado medio (MISE), digamos, hay reglas que se aplican en dimensiones más altas (el número de bins depende del número de observaciones, la varianza, la dimensión y la "forma"), tanto para la estimación de densidad del núcleo como para los histogramas.
[De hecho, muchos de los problemas para uno también son problemas para el otro, por lo que parte de la información en este artículo de Wikipedia será relevante.]
Esta dependencia de la forma parece implicar que para elegir de manera óptima, ya necesita saber lo que está tramando. Sin embargo, si está preparado para hacer algunas suposiciones razonables, puede usarlas (por ejemplo, algunas personas podrían decir "aproximadamente gaussiano") o, alternativamente, puede usar alguna forma de estimador "enchufable" del apropiado funcional.
Wand, 1997 cubre el caso 1-D. Si puede obtener ese artículo, eche un vistazo a lo que hay allí también es relevante para la situación en dimensiones superiores (en lo que respecta a los tipos de análisis que se realizan). (Existe en forma de documento de trabajo en Internet si no tiene acceso a la revista).[1]
El análisis en dimensiones más altas es algo más complicado (más o menos de la misma manera que procede de las dimensiones 1-D a r para la estimación de la densidad del núcleo), pero hay un término en la dimensión que entra en el poder de n.
Sec 3.4 Eqn 3.61 (p83) de Scott, 1992 da el ancho de bin óptimo asintóticamente:[2]
h∗=R(fk)−1/2(6∏di=1R(fi)1/2)1/(2+d)n−1/(2+d)
donde es un término de rugosidad (no el único posible), y creo que es la derivada de con respecto al término en .R(f)=∫Rdf(x)2dxfifithx
Entonces, para 2D que sugiere anchos de bin que se reducen como .n−1/4
En el caso de variables normales independientes, la regla aproximada es , donde es el ancho de la bandeja en la dimensión , el indica el valor asintóticamente óptimo, y es la desviación estándar de la población en la dimensión .h∗k≈3.5σkn−1/(2+d)hkk∗σkk
Para bivariada normal con correlación , el ancho de bin esρ
h∗i=3.504σi(1−ρ2)3/8n−1/4
Cuando la distribución es sesgada, o de cola pesada, o multimodal, generalmente resultan anchos de bin mucho más pequeños; en consecuencia, los resultados normales a menudo estarían en los mejores límites superiores en bindwith.
Por supuesto, es completamente posible que no le interese el error cuadrático integrado medio, sino algún otro criterio.
[1]: Varita, MP (1997),
"Elección basada en datos del ancho del contenedor de histograma",
American Statistician 51 , 59-64
[2]: Scott, DW (1992),
Estimación de densidad multivariada: teoría, práctica y visualización ,
John Wiley & Sons, Inc., Hoboken, NJ, EE. UU.