Estimadores de densidad de kernel adaptativos?

¿Alguien puede informar sobre su experiencia con un estimador de densidad de núcleo adaptativo?
(Hay muchos sinónimos: adaptativo | variable | ancho variable, KDE | histograma | interpolador ...)

La estimación de densidad de kernel variable dice "variamos el ancho del kernel en diferentes regiones del espacio muestral. Hay dos métodos ..." en realidad, más: vecinos dentro de cierto radio, KNN vecinos más cercanos (K generalmente fijos), árboles Kd, multigrid ...
Por supuesto, ningún método único puede hacer todo, pero los métodos adaptativos parecen atractivos.
Vea, por ejemplo, la bonita imagen de una malla adaptativa 2d en el método de elementos finitos .

Me gustaría saber qué funcionó / qué no funcionó para datos reales, especialmente> = 100k puntos de datos dispersos en 2d o 3d.

Agregado el 2 de noviembre: aquí hay una gráfica de una densidad "grumosa" (por partes x ^ 2 * y ^ 2), una estimación del vecino más cercano y KDE gaussiano con el factor de Scott. Si bien un (1) ejemplo no prueba nada, sí muestra que NN puede adaptarse a colinas afiladas razonablemente bien (y, usando árboles KD, es rápido en 2d, 3d ...) texto alternativo

kde k-nearest-neighbour

— denis
fuente

¿Puede dar un poco más de contexto en cuanto a lo que quiere decir con "lo que funciona" o los objetivos particulares de su proyecto en cuestión. Los he usado para visualizar procesos de puntos espaciales, pero dudo que eso sea lo que tenía en mente al hacer esta pregunta.

— Andy W

Respuestas:

$n\leq 450$ $n$ $p\geq 4$ $p$ es el número de dimensión) como la configuración en la cual el método de kernel variable se vuelve competitivo con los de ancho fijo (a juzgar por su pregunta, usted no está en esta configuración).

La intuición detrás de estos resultados es que si no está en una configuración muy escasa, entonces, la densidad local simplemente no varía lo suficiente como para que la ganancia en el sesgo supere la pérdida de eficiencia (y, por lo tanto, el AMISE del núcleo de ancho variable aumenta en relación con el AMISE de ancho fijo). Además, dado el gran tamaño de muestra que tiene (y las pequeñas dimensiones), el núcleo de ancho fijo ya será muy local, lo que disminuirá cualquier ganancia potencial en términos de sesgo.

— usuario603
fuente

Gracias Kwak "... para variables aleatorias distribuidas gaussianas"; ¿Sabrías de trabajos más recientes para distribuciones "grumosas"?

— denis

@Denis:> 'Clumpy' =? Concentrado =? Con colas más estrechas que la gaussiana?

— usuario603

No soy un experto, pero me gusta "agrupamiento de conjuntos de datos" en el artículo Lang et al., "Insights on Fast Kernel Density Estimation Algorits", 2004, 8p

— denis

@Denis:> Diría que empeora el problema (es decir, el núcleo NN debería funcionar mejor con datos menos agrupados). Tengo una explicación intuitiva, pero no encaja aquí, además, es posible que desee preguntar esto en la placa principal como una pregunta separada (vinculada a esta) para tener opiniones adicionales.

— usuario603

El papel

Maxim V. Shapovalov, Roland L. Dunbrack Jr., Una biblioteca giratoria dependiente de columna vertebral suavizada para proteínas derivadas de estimaciones y regresiones de densidad adaptativa del núcleo, Estructura, Volumen 19, Número 6, 8 de junio de 2011, Páginas 844-858, ISSN 0969- 2126, 10.1016 / j.str.2011.03.019.

utiliza la estimación adaptativa de la densidad del kernel para que su estimación de la densidad sea uniforme en las regiones donde los datos son escasos.

— momeara
fuente

-1

Loess / lowess es básicamente un método KDE variable, con el ancho del núcleo establecido por el enfoque de vecino más cercano. Descubrí que funciona bastante bien, ciertamente mucho mejor que cualquier modelo de ancho fijo cuando la densidad de los puntos de datos varía notablemente.

Una cosa a tener en cuenta con KDE y los datos multidimensionales es la maldición de la dimensionalidad. En igualdad de condiciones, hay muchos menos puntos dentro de un radio establecido cuando p ~ 10, que cuando p ~ 2. Esto puede no ser un problema para usted si solo tiene datos en 3D, pero es algo a tener en cuenta.

— Hong Ooi
fuente

Loess es un método de REGRESIÓN de kernel variable. La pregunta se hizo sobre la estimación de la DENSIDAD del núcleo variable.

— Rob Hyndman

Vaya, tienes razón. Mal leyó la pregunta.

— Hong Ooi

@ Rob, disculpe mis preguntas ingenuas: si variar el ancho del kernel es (a veces) bueno para la regresión local / suavizado del kernel, ¿por qué es malo para la estimación de densidad? ¿No es la estimación de densidad un caso de estimación de f () para f () == densidad ()?

— denis

@Hong Ooi, ¿cuántos puntos en qué Ndim has usado? Gracias

— denis

@Denis. Gran pregunta ¿Puede agregarlo como una pregunta adecuada en el sitio y veremos qué respuestas pueden dar las personas?

— Rob Hyndman