¿Cuál es el fundamento de la función de covarianza de Matérn?


19

La función de covarianza de Matérn se usa comúnmente como función de núcleo en el proceso gaussiano. Se define así

Cν(d)=σ221νΓ(ν)(2νdρ)νKν(2νdρ)

donde d es una función de distancia (como la distancia euclidiana), Γ es la función gamma, Kν es la función de Bessel modificada del segundo tipo, ρ y ν son parámetros positivos. ν es mucho tiempo elegido para ser 32 o52 en la práctica.

Muchas veces este kernel funciona mejor que el kernel gaussiano estándar, ya que es 'menos suave', pero excepto eso, ¿hay alguna otra razón por la que uno preferiría este kernel? Alguna intuición geométrica sobre cómo se comporta, o alguna explicación de la fórmula aparentemente críptica sería muy apreciada.

Respuestas:


18

Además de la buena respuesta de @DahnJahn, pensé que trataría de decir un poco más sobre el origen de las funciones Bessel y gamma. Un punto de partida para llegar a la función de covarianza es el teorema de Bochner.

Teorema (Bochner) Una función estacionaria continua es positiva definida si y solo si ˜ k es la transformada de Fourier de una medida positiva finita: ˜ k ( t ) = R e - i ω t d µ ( ω )k(x,y)=k~(|xy|)k~

k~(t)=Reiωtdµ(ω)

De esto se puede deducir que la matriz de covarianza de Matérn se deriva como la transformada de Fourier de (Fuente). Eso está bien, pero en realidad no nos dice cómo se llega a esta medida positiva finita dada por11(1+ω2)p . Bueno, es la densidad espectral (potencia) de un proceso estocásticof(x).1(1+ω2)pf(x)

¿Qué proceso estocástico? Se sabe que un proceso aleatorio en con una función de covarianza de Matérn es una solución a la ecuación diferencial parcial estocástica (SPDE) ( κ 2 - ) α / 2 X ( s ) = φ W ( s ) , donde W ( s ) es ruido blanco gaussiano con varianza unitaria, Δ = d i = 1 2Rd

(κ2)α/2X(s)=φW(s),
W(s) es el operador de Laplace, yα=ν+d/2(creo que esto está enCressie y Wikle).
Δ=i=1d2xi2
α=ν+d/2

¿Por qué elegir este proceso SPDE / estocástico en particular? El origen está en las estadísticas espaciales, donde se argumenta que es la covarianza más simple y natural que funciona bien en :R2

La función de correlación exponencial es una correlación natural en una dimensión, ya que corresponde a un proceso de Markov. En dos dimensiones esto ya no es así, aunque la exponencial es una función de correlación común en el trabajo geoestadístico. Whittle (1954) determinó la correlación correspondiente a una ecuación diferencial estocástica de tipo Laplace:

[(t1)2+(t2)2κ2]X(t1,t2)=ϵ(t1,t2)
ϵ

AR(1)AR(p)p

Esta función de covarianza no está relacionada con el proceso de clúster de Matérn.

Referencias

Cressie, Noel y Christopher K. Wikle. Estadísticas para datos espacio-temporales. John Wiley & Sons, 2015.

Guttorp, Peter y Tilmann Gneiting. "Estudios en la historia de probabilidad y estadística XLIX sobre la familia de correlación Matern". Biometrika 93.4 (2006): 989-995.

Rasmussen, CE y Williams, CKI Gaussian Processes for Machine Learning. MIT Press, 2006.


2
ν=p1/2pCAR(p)pCAR(p)

Ese es un malentendido obvio de mi parte, actualizaré la respuesta. ¡Gracias!
MachineEpsilon

16

No lo sé, pero esta pregunta me pareció muy interesante y esto es lo que obtuve después de leer un poco sobre ella.

νν=5/2

C5/2(d)=σ2(1+5dρ+5d23ρ2)exp(5dρ)
νCν
limνCν(d)=σ2exp(d22ρ2)
ν=1/2
C1/2(d)=σ2exp(dρ)

νν1

Esto se demuestra bastante bien en una imagen tomada de Rasmussen y Williams (2006) CE Rasmussen y CKI Williams, Procesos gaussianos para el aprendizaje automático, MIT Press, 2006, ISBN 026218253X.  c 2006 Instituto de Tecnología de Massachusetts.  www.GaussianProcess.org/gpml

En Interpolation of Spatial Data , Stein (que en realidad propuso el nombre de la función de covarianza de Matérn), argumenta (pág. 30) que la diferenciabilidad infinita de la función de covarianza gaussiana produce resultados poco realistas para los procesos físicos, ya que al observar solo una pequeña fracción continua de espacio / tiempo debería, en teoría, producir toda la función. Por lo tanto, propuso la versión de Matérn como una generalización que puede hacer coincidir los procesos físicos de manera más realista.

Resumen

ν

ν


1
(+1) Tenía curiosidad por saber si había una explicación o derivación de esta función de covarianza en el libro de Matérn pub.epsilon.slu.se/10033/1/… ? No he podido localizarlo hasta ahora. Parece que esta función de covarianza ocupa un lugar muy destacado en el libro de Stein, por lo que estoy ansioso por saber más.
MachineEpsilon

@Machineepsilon ¿Matérn menciona o define realmente la función? El libro de Stein me dio la sensación de que fue él quien lo ideó y solo lo nombró en honor a Matérn.
Dahn

No estoy seguro, ¡eso es lo que quería descubrir! Intentaré echar un vistazo porque Rasmussen también hace referencia al libro.
MachineEpsilon
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.