¿Puede explicar la estimación de densidad de la ventana de Parzen (núcleo) en términos simples?

24

La estimación de la densidad de la ventana de Parzen se describe como

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

donde $n$ es el número de elementos en el vector, es un vector, es una densidad de probabilidad de , es la dimensión de la ventana de Parzen y es una función de ventana. $x$ $p(x)$ $x$ $h$ $\phi$

Mis preguntas son:

¿Cuál es la diferencia básica entre una función de ventana Parzen y otras funciones de densidad como la función gaussiana, etc.?
¿Cuál es el papel de la función de ventana ( ) en la búsqueda de la densidad de ? $\phi$ $x$
¿Por qué podemos conectar otras funciones de densidad en lugar de la función de ventana?
¿Cuál es el papel de en la búsqueda de la densidad de ? $h$ $x$

— usuario366312
fuente

44

La estimación de densidad de ventana de Parzen es otro nombre para la estimación de densidad de kernel . Es un método no paramétrico para estimar la función de densidad continua a partir de los datos.

Imagine que tiene algunos puntos de datos $x_1,\dots,x_n$ que provienen de una distribución común desconocida, presumiblemente continua, $f$ . Usted está interesado en estimar la distribución dada su información. Una cosa que podría hacer es simplemente mirar la distribución empírica y tratarla como una muestra equivalente de la distribución verdadera. Sin embargo, si sus datos son continuos, lo más probable es que vea cada $x_i$ el punto aparece solo una vez en el conjunto de datos, por lo que, en base a esto, concluiría que sus datos provienen de una distribución uniforme ya que cada uno de los valores tiene la misma probabilidad. Con suerte, puede hacerlo mejor que esto: puede empaquetar sus datos en una cierta cantidad de intervalos equidistantes y contar los valores que se incluyen en cada intervalo. Este método se basaría en estimar el histograma . Desafortunadamente, con el histograma terminas con algún número de bins, en lugar de con una distribución continua, por lo que es solo una aproximación aproximada.

La estimación de la densidad del núcleo es la tercera alternativa. La idea principal es que usted aproxima $f$ por una mezcla de distribuciones continuas $K$ (usando su notación $\phi$ ), llamadas núcleos , que se centran en puntos de datos $x_i$ y tienen una escala ( ancho de banda ) igual a $h$ :

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

Esto se ilustra en la imagen a continuación, donde se usa la distribución normal como kernel $K$ y se usan diferentes valores para el ancho de banda $h$ para estimar la distribución dados los siete puntos de datos (marcados por las líneas coloridas en la parte superior de las parcelas). Las densidades coloridas en las parcelas son núcleos centrados en puntos $x_i$ . Tenga en cuenta que $h$ es un parámetro relativo , su valor siempre se elige dependiendo de sus datos y el mismo valor de $h$ puede no dar resultados similares para diferentes conjuntos de datos.

Kernel $K$ puede ser pensado como una función de densidad de probabilidad, y necesita integrarse a la unidad. También debe ser simétrico para que $K(x) = K(-x)$ y, lo que sigue, centrado en cero. El artículo de Wikipedia sobre los núcleos enumera muchos núcleos populares, como Gaussian (distribución normal), Epanechnikov, rectangular (distribución uniforme), etc. Básicamente, cualquier distribución que cumpla esos requisitos se puede utilizar como núcleo.

Obviamente, la estimación final dependerá de su elección del núcleo (pero no tanto) y del parámetro de ancho de banda $h$ . El siguiente hilo ¿Cómo interpretar el valor del ancho de banda en una estimación de densidad del núcleo? describe el uso de los parámetros de ancho de banda con mayor detalle.

Dicho esto en inglés simple, lo que asume aquí es que los puntos observados $x_i$ son solo una muestra y siguen una distribución $f$ para estimarse. Dado que la distribución es continua, asumimos que hay una densidad desconocida pero distinta de cero alrededor del vecindario cercano de los puntos $x_i$ (el vecindario está definido por el parámetro $h$ ) y usamos los núcleos $K$ para explicarlo. Cuantos más puntos haya en algún vecindario, más densidad se acumula alrededor de esta región y, por lo tanto, mayor es la densidad general de $\hat{f_h}$ . La función resultante $\hat{f_h}$ ahora se puede evaluar para cualquierpunto $x$ (sin subíndice) para obtener una estimación de densidad para él, así es como obtuvimos la función $\hat{f_h}(x)$ que es una aproximación de la función de densidad desconocida $f(x)$ .

Lo bueno de las densidades del núcleo es que, al igual que los histogramas, son funciones continuas y que son densidades de probabilidad válidas, ya que son una mezcla de densidades de probabilidad válidas. En muchos casos, esto es lo más cercano que puede llegar a aproximar $f$ .

La diferencia entre la densidad del núcleo y otras densidades, como distribución normal, es que las densidades "habituales" son funciones matemáticas, mientras que la densidad del núcleo es una aproximación de la densidad real estimada utilizando sus datos, por lo que no son distribuciones "independientes".

Le recomendaría los dos buenos libros introductorios sobre este tema de Silverman (1986) y Wand and Jones (1995).

Silverman, BW (1986). Estimación de densidad para estadísticas y análisis de datos. CRC / Chapman y Hall.

Wand, MP y Jones, MC (1995). Alisado del grano. Londres: Chapman & Hall / CRC.

— Tim
fuente

x

$x$

x_{i}

$x_i$

x

$x$

1

@anónimo Agregué editar refiriendo su pregunta en el comentario al final del párrafo "Diciendo esto en inglés simple ...".

— Tim

4

$\phi$

$x$ $\phi_h(x_i - x)$ $x$ $x_1=1$ $x_2 = 2$ $\sigma=1$ $\phi_h$ $x$ $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$

3) Puede conectar cualquier función de densidad que desee como su función de ventana.

$h$

— David J. Harris
fuente