Prefiero esto diciendo que no siempre está claro qué se entiende por "no paramétrico" o "semiparamétrico", etc. En los comentarios, parece probable que whuber tenga alguna definición formal en mente (tal vez algo como elegir un modelo de alguna familia donde es de dimensión infinita), pero voy a ser bastante informal. Algunos podrían argumentar que un método no paramétrico es aquel en el que el número efectivo de parámetros que utiliza aumenta con los datos. Creo que hay un video en videolectures.net donde (creo) Peter Orbanz da cuatro o cinco tomas diferentes sobre cómo podemos definir "no paramétrico".Mθ{Mθ:θ∈Θ}Θ
Como creo que sé qué tipo de cosas tienes en mente, por simplicidad, supondré que estás hablando de usar procesos gaussianos para la regresión, de una manera típica: tenemos datos de entrenamiento estamos interesados en modelar la media condicional . Escribimos
y tal vez estamos tan audaces como para suponer que los son iid y normalmente distribuidos, . será unidimensional, pero todo se traslada a dimensiones superiores.(Yi,Xi),i=1,...,nE(Y|X=x):=f(x)
Yi=f(Xi)+ϵi
ϵiϵi∼N(0,σ2)Xi
Si nuestra puede tomar valores en un continuo, entonces puede considerarse como un parámetro de (infinitamente) dimensión infinita. Entonces, en el sentido de que estamos estimando un parámetro de dimensión infinita , nuestro problema es no paramétrico. Es cierto que el enfoque bayesiano tiene algunos parámetros flotando por aquí y por allá. Pero realmente, se llama no paramétrico porque estamos estimando algo de dimensión infinita. Los GP anteriores que usamos asignan masa a cada vecindario de cada función continua, por lo que pueden estimar bien cualquier función continua arbitrariamente.Xif(⋅)
Las cosas en la función de covarianza están jugando un papel similar al de los parámetros de suavizado en los estimadores frecuentistas habituales - a fin de que el problema de no ser absolutamente desesperada tenemos que asumir que hay una cierta estructura que esperamos ver exposiciones. Los bayesianos logran esto mediante el uso de un previo en el espacio de funciones continuas en forma de un proceso gaussiano. Desde una perspectiva bayesiana, estamos codificando creencias sobre asumiendo que se extrae de un GP con tal y tal función de covarianza. Lo anterior penaliza efectivamente las estimaciones de por ser demasiado complicado.ffff
Editar para problemas computacionales
La mayoría (¿todo?) De estas cosas está en el libro del Proceso Gaussiano de Rasmussen y Williams.
Los problemas computacionales son difíciles para los médicos de cabecera. Si procedemos ingenuamente, necesitaremos una memoria de tamaño solo para mantener la matriz de covarianza y (resulta) operaciones para invertirla. Hay algunas cosas que podemos hacer para que las cosas sean más factibles. Una opción es notar que el tipo que realmente necesitamos es , la solución a donde es la matriz de covarianza. El método de gradientes conjugados resuelve esto exactamente en cálculos , pero si nos satisfacemos con una solución aproximada podríamos terminar el algoritmo de gradiente conjugado después de pasos y hacerlo enO(N2)O(N3)v(K+σ2I)v=YKO(N3)kO(kN2)cálculos Tampoco necesitamos necesariamente almacenar toda la matriz a la vez.K
Así que nos hemos movido de a , pero esto todavía se escala cuadráticamente en , por lo que podríamos no estar contentos. La siguiente mejor opción es trabajar con un subconjunto de datos, por ejemplo, del tamaño donde invertir y almacenar una matriz no es tan malo. Por supuesto, no queremos simplemente tirar los datos restantes. El enfoque del subconjunto de regresores señala que podemos derivar la media posterior de nuestro GP como una regresión de nuestros datos sobre funciones dependientes de datos determinadas por nuestra función de covarianza; entonces tiramos todos menos de estos a la basura y estamos abajo a los cálculos de .O(N3)O(kN2)Nmm×mYNmO(m2N)
Existen un par de otras posibles opciones. Podríamos construir una aproximación de bajo rango a , y establecer donde es y de rango ; Resulta invirtiendo en este caso se puede hacer por vez invirtiendo . Otra opción es elegir la función de covarianza para que sea escasa y usar métodos de gradiente conjugado; si la matriz de covarianza es muy escasa, esto puede acelerar sustancialmente los cálculos.KK=QQTQn×qqK+σ2IQTQ+σ2I