LOESS que permite discontinuidades

14

¿Existe una técnica de modelado como LOESS que permita cero, una o más discontinuidades, donde el momento de las discontinuidades no se conoce a priori?
Si existe una técnica, ¿existe una implementación existente en R?

— Jeromy Anglim
fuente

1

discontinuidades en valores de x conocidos, o en valores de x desconocidos? (conocido x es bastante fácil)

— Glen_b -Reinstate Monica

@glen Actualicé la pregunta: estoy interesado en situaciones en las que no se conoce el momento de las discontinuidades a priori.

— Jeromy Anglim

Esta puede ser una pregunta discutible / tonta, pero usted dice "sincronización": ¿es para usar con series de tiempo? Creo que la mayoría de las respuestas a continuación asumen esto ("punto de cambio, etc."), aunque LOESS se puede aplicar en situaciones que no son series de tiempo, con discontinuidades. Yo creo que.

— Wayne

15

Parece que desea realizar una detección de múltiples puntos de cambio seguida de un suavizado independiente dentro de cada segmento. (La detección puede estar en línea o no, pero es probable que su aplicación no esté en línea). Hay mucha literatura sobre esto; Las búsquedas en Internet son fructíferas.

DA Stephens escribió una útil introducción a la detección del punto de cambio bayesiano en 1994 (App. Stat. 43 # 1 pp 159-178: JSTOR ).
Más recientemente, Paul Fearnhead ha estado haciendo un buen trabajo (por ejemplo, inferencia bayesiana exacta y eficiente para múltiples problemas de puntos de cambio , Stat Comput (2006) 16: 203-213: PDF gratuito ).
Existe un algoritmo recursivo, basado en un hermoso análisis de D Barry y JA Hartigan.
- Modelos de partición de productos para modelos de punto de cambio, Ann. Stat. 20: 260-279: JSTOR ;
- A Bayesian Analysis for Change Point Problems, JASA 88: 309-319: JSTOR .
Una implementación del algoritmo de Barry & Hartigan está documentada en O. Seidou y TBMJ Ourda, Detección de puntos de cambio múltiple basada en recursión en regresión lineal multivariada y aplicación a flujos de ríos, Res de agua. Res., 2006: PDF gratis .

No he buscado mucho ninguna implementación de R (había codificado una en Mathematica hace un tiempo) pero agradecería una referencia si la encuentra.

— whuber
fuente

3

Encontré el paquete bcp R jstatsoft.org/v23/i03/paper que implementa el algoritmo Barry & Hartigan

— Jeromy Anglim

@ Jeromy: Gracias por el paquete R y por insertar los enlaces a las referencias.

— whuber

7

hágalo con la regresión de línea discontinua de Koencker, vea la página 18 de esta viñeta

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

En respuesta al último comentario de Whuber:

Este estimador se define así.

, $x\in\mathbb{R}$ , $x_{(i)}\geq x_{(i-1)}\;\forall i$

, $e_i:=y_{i}-\beta_{i}x_{(i)}-\beta_0$

, , $z^+=\max(z,0)$ $z^-=\max(-z,0)$

, $\tau \in (0,1)$ $\lambda\geq 0$

$\underset{\beta\in\mathbb{R}^n|\tau, \lambda}{\min.} \sum_{i=1}^{n} \tau e_i^++\sum_{i=1}^{n}(1-\tau)e_i^-+\lambda\sum_{i=2}^{n}|\beta_{i}-\beta_{i-1}|$

da el cuantil deseado (es decir, en el ejemplo, ). dirige el número de punto de interrupción: para $\tau$ $\tau=0.9$ $\lambda$ $\lambda$ grande, este estimador se reduce a ningún punto de ruptura (correspondiente al estimador de regresión de cuantiles lineal classicla).

Splines de suavizado de cuantiles Roger Koenker, Pin Ng, Stephen Portnoy Biometrika, vol. 81, núm. 4 (diciembre de 1994), págs. 673-680

PD: hay un documento de trabajo de acceso abierto con el mismo nombre por los mismos otros, pero no es lo mismo.

— usuario603
fuente

Esa es una buena idea: gracias por la referencia. Sin embargo, los residuos de ese ajuste en particular se ven bastante mal, lo que me hace preguntarme qué tan bien identifica los posibles puntos de cambio.

— whuber

whuber: i do not know how much you are familiar with the theory of quantile regression. These lines have a major advantage over splines: they do not assume any error distribution (i.e. they do not assume the residuals to be Gaussian).

— user603

@kwak This looks interesting. Not assuming a normal error distribution would be useful for one of my applications.

— Jeromy Anglim

De hecho, lo que obtienes de esta estimación son los cuantiles condicionales reales: en pocas palabras, estos son a splines / LOESS-regresiones lo que los gráficos de caja son para la pareja (media, sd): una vista mucho más rica de sus datos. También conservan su validez en un contexto no gaussiano (como errores asimétricos, ...).

— user603

@kwak: Los residuos están fuertemente correlacionados con la coordenada x. Por ejemplo, hay series largas de residuos negativos o positivos pequeños. Si tienen una distribución gaussiana o no, entonces, es irrelevante (así como irrelevante en cualquier análisis exploratorio): esta correlación muestra que el ajuste es deficiente.

— whuber

6

Estos son algunos métodos y paquetes R asociados para resolver este problema.

La estimación del trillado Wavelet en regresión permite las discontonuidades. Puede usar el paquete wavethresh en R.

Una gran cantidad de métodos basados en árboles (no muy lejos de la idea de wavelet) son útiles cuando tienes descontinuidades. ¡Por lo tanto, paquete de árbol, paquete de árbol!

En la familia de los métodos de " máxima verosimilitud local " ... entre otros: Trabajo de Pozhel y Spokoiny: Pesas adaptativas Suavizado (paquete aws) Trabajo de Catherine Loader: paquete locfit

Supongo que cualquier kernel más suave con ancho de banda localmente variable hace el punto, pero no sé el paquete R para eso.

nota: Realmente no entiendo cuál es la diferencia entre LOESS y regresión ... ¿es la idea de que en LOESS los algoritmos deberían estar "en línea"?

— robin girard
fuente

1

Re LOESS: Quizás mi terminología no es del todo correcta. Por LOESS me refiero a los modelos que predicen Y a partir de X utilizando alguna forma de ajuste de curva localizada. por ejemplo, como se ve en la mayoría de estos gráficos: google.com/…

— Jeromy Anglim

2

It should be possible to code a solution in R using the non-linear regression function nls, b splines (the bs function in the spline package, for example) and the ifelse function.

— Andrew Robinson
fuente