Ancho de banda del kernel en la estimación de densidad del kernel

10

Estoy haciendo una estimación de densidad de Kernel, con un conjunto de puntos ponderados (es decir, cada muestra tiene un peso que no es necesario), en N dimensiones. Además, estas muestras están solo en un espacio métrico (es decir, podemos definir una distancia entre ellas) pero nada más. Por ejemplo, no podemos determinar la media de los puntos de muestra, ni la desviación estándar, ni escalar una variable en comparación con otra. El Kernel solo se ve afectado por esta distancia y el peso de cada muestra:

F (X) = \frac{1)}{\sum w mi yo sol h t s_{yo}} * \sum \frac{w mi yo sol h t_{yo}}{h} * K mi r norte mi l (\frac{re yo s t una norte C mi (X, X_{yo})}{h})

$f(x) = \frac{1.}{\sum weights_i} * \sum\frac{weight_i}{h} * Kernel(\frac{distance(x,x_i)}{h})$

En este contexto, estoy tratando de encontrar una estimación robusta para el ancho de banda del núcleo , posiblemente variando espacialmente, y preferiblemente que proporcione una reconstrucción exacta en el conjunto de datos de entrenamiento . Si es necesario, podríamos suponer que la función es relativamente suave. $h$ $x_i$

Intenté usar la distancia al primer o segundo vecino más cercano, pero da resultados bastante malos. Intenté con la optimización de dejar uno afuera, pero tengo dificultades para encontrar una buena medida para optimizar en este contexto en Nd, por lo que encuentra estimaciones muy malas, especialmente para las propias muestras de entrenamiento. No puedo usar la estimación codiciosa basada en el supuesto normal ya que no puedo calcular la desviación estándar. Encontré referencias usando matrices de covarianza para obtener núcleos anisotrópicos, pero nuevamente, no se mantendría en este espacio ...

Alguien tiene una idea o una referencia?

pdf smoothing kernel-smoothing

— WhitAngl
fuente

Si puedes medir la distancia, entonces puedes medir una media. ¿Está bien? Podría decir "Estoy usando la distancia del coseno para las palabras", por lo que una "palabra mala realmente no tiene mucho significado", pero no veo por qué aún no se pudo calcular. Se podría decir que está en un espacio ordinal, por lo que la media no se valora continuamente. ¿Por qué la media es indefinible?

— EngrStudent

3

$k$

— shabbychef
fuente

2

En Matlab File Exchange, hay una función kde que proporciona el ancho de banda óptimo con el supuesto de que se utiliza un núcleo gaussiano: el estimador de densidad del núcleo .

Incluso si no usa Matlab, puede analizar este código por su método de cálculo del ancho de banda óptimo. Esta es una función altamente calificada en el intercambio de archivos y la he usado muchas veces.

— Elpezmuerto
fuente