Si los anchos variables del núcleo a menudo son buenos para la regresión del núcleo, ¿por qué generalmente no son buenos para la estimación de la densidad del núcleo?

Esta pregunta es provocada por la discusión en otra parte .

Los núcleos variables a menudo se usan en regresión local. Por ejemplo, loess se usa ampliamente y funciona bien como una regresión más suave, y se basa en un núcleo de ancho variable que se adapta a la escasez de datos.

Por otro lado, generalmente se piensa que los núcleos variables conducen a estimadores deficientes en la estimación de la densidad del núcleo (ver Terrell y Scott, 1992 ).

¿Existe una razón intuitiva por la que funcionarían bien para la regresión pero no para la estimación de densidad?

— Rob Hyndman
fuente

Usted escribió "Por otro lado, generalmente se piensa que los núcleos variables conducen a estimadores deficientes en la estimación de la densidad del núcleo", ¿cuál es la parte del documento que menciona que lo hace creer eso? Tengo muchas referencias que van en la otra deserción, ver por ejemplo las referencias mencionadas en este documento: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

— robin girard

El resumen de Terrell y Scott lo resume muy bien: "Los estimadores de vecinos más cercanos en todas las versiones funcionan mal en una y dos dimensiones". Solo parecen encontrar mucha ventaja en la estimación de densidad multivariada.

— Rob Hyndman el

"Vecino más cercano" no es el único núcleo variable. Los documentos que menciono usan otra herramienta como el algoritmo de Lepskii. Leeré el artículo de AOS, pero como el rendimiento del vecino más cercano debería disminuir con la dimensión, me pareció extraño que aumentar la dimensión ofrezca ventajas a un estimador "muy no paramétrico" (si admitimos que el ancho de banda constante es menos no paramétrico que ancho de banda variable). En este tipo de situación, el caso de evaluación que se usa a menudo determina los resultados ...

— robin girard

@Robin Girard:> * le pareció extraño que aumentar la dimensión ofrezca ventajas a un estimador "muy no paramétrico" (si admitimos que el ancho de banda constante es más no paramétrico que el ancho de banda variable) * ¿hay algún error tipográfico en esta oración? De lo contrario, parecería estar de acuerdo con los autores, al menos en un nivel intuitivo. Gracias por confirmar / corregir.

— usuario603

@kwak gracias por notar eso! esto es un error tipográfico: quería decir que el ancho de banda constante es menos NP ... No puedo modificar mi comentario :( lo siento por eso.

— robin girard

Respuestas:

Parece que hay dos preguntas diferentes aquí, que intentaré dividir:

1) ¿en qué se diferencia KS, el suavizado de kernel, de KDE, la estimación de densidad de kernel? Bueno, digamos que tengo un estimador / suavizador / interpolador

est( xi, fi -> gridj, estj )

y también se conoce la densidad "real" f () en el xi. Luego, la ejecución est( x, densityf ) debe dar una estimación de la densidadf (): un KDE. Bien puede ser que los KS y los KDE se evalúen de manera diferente, diferentes criterios de suavidad, diferentes normas, pero no veo una diferencia fundamental. Qué me estoy perdiendo ?

2) ¿Cómo afecta la dimensión a la estimación o alisamiento, intuitivamente ? Aquí hay un ejemplo de juguete, solo para ayudar a la intuición. Considere una caja de N = 10000 puntos en una cuadrícula uniforme, y una ventana, una línea o cuadrado o cubo, de W = 64 puntos dentro de ella:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Aquí la "relación de lado" es el lado de la ventana / lado de la caja, y "dist para ganar" es una estimación aproximada de la distancia media de un punto aleatorio en el cuadro a una ventana colocada al azar.

¿Tiene esto algún sentido? (Una imagen o applet realmente ayudaría: ¿alguien?)

La idea es que una ventana de tamaño fijo dentro de un cuadro de tamaño fijo tenga una proximidad muy diferente al resto del cuadro, en 1d 2d 3d 4d. Esto es para una cuadrícula uniforme; tal vez la fuerte dependencia de la dimensión se traslada a otras distribuciones, tal vez no. De todos modos, parece un fuerte efecto general, un aspecto de la maldición de la dimensionalidad.

— denis
fuente

La estimación de la densidad del núcleo significa integración sobre una ventana local (difusa), y el suavizado del núcleo significa promediar sobre una ventana local (difusa).

Suavizado del núcleo: . $\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$

$\rho(x) \propto \sum K(||x-x_i||)$

¿Cómo son estos lo mismo?

Considere las muestras de una función de valor booleano, es decir, un conjunto que contiene "muestras verdaderas" (cada una con valor unitario) y "muestras falsas" (cada una con valor cero). Suponiendo que la densidad de la muestra general es constante (como una cuadrícula), el promedio local de esta función es idénticamente proporcional a la densidad local (parcial) del subconjunto de valores verdaderos. (Las muestras falsas nos permiten ignorar constantemente el denominador de la ecuación de suavizado, mientras agregamos términos cero a la suma, de modo que se simplifique en la ecuación de estimación de densidad).

Del mismo modo, si sus muestras se representaron como elementos dispersos en un ráster booleano, podría estimar su densidad aplicando un filtro de desenfoque al ráster.

¿Cómo son estos diferentes?

Intuitivamente, puede esperar que la elección del algoritmo de suavizado dependa de si las mediciones de la muestra contienen o no un error de medición significativo.

En un extremo (sin ruido) simplemente necesita interpolar entre los valores exactamente conocidos en las ubicaciones de muestra. Digamos, por triangulación de Delaunay (con interpolación bilineal por partes).

La estimación de densidad se asemeja al extremo opuesto, es completamente ruido, ya que la muestra aislada no se acompaña de una medición del valor de densidad en ese punto. (Por lo tanto, no hay nada que interpolar simplemente. Podría considerar medir las áreas de celdas del diagrama de Voronoi, pero la suavización / eliminación de ruido seguirá siendo importante ...)

El punto es que, a pesar de la similitud, estos son problemas fundamentalmente diferentes, por lo que diferentes enfoques pueden ser óptimos.

— benjimin
fuente