Selección de spline df en un problema de modelo de Poisson aditivo general

9

He estado ajustando algunos datos de series de tiempo usando un modelo aditivo general de Poisson usando SAS PROC GAM. En términos generales, he estado haciendo que su procedimiento de validación cruzada generalizado incorporado genere al menos un "punto de partida" decente para mi spline individual, que es una función no lineal del tiempo junto con un único término paramétrico (el que yo Estoy realmente interesado en).

Hasta ahora, ha funcionado bastante bien, con la excepción de uno de mis conjuntos de datos. Hay 132 observaciones en ese conjunto de datos, y GCV sugiere una spline de 128 grados de libertad. Eso parece ... mal. Muy mal. Más importante aún, tampoco es del todo estable. Intenté un segundo enfoque, usando algo como un criterio de "Cambio en la estimación" para dejar de agregar grados de libertad cuando la estimación del término paramétrico deja de cambiar porque ¿por qué continuar agregando control si nada es diferente?

El problema es que la estimación no es en absoluto estable. Intenté los siguientes grados de libertad, y como puede ver, el término paramétrico rebota salvajemente:

DF: Parametric Estimate:
1   -0.76903
2   -0.56308
3   -0.47103
4   -0.43631
5   -0.33108
6   -0.1495
7    0.0743
8    0.33459
9    0.62413
10   0.92161
15   1.88763
20   1.98869
30   2.5223
40-60 had convergence issues
70   7.5497
80   7.22267
90   6.71618
100  5.83808
110  4.61436
128  1.32347

No tengo ninguna intuición sobre lo que debería estar usando en términos de df para este bit de datos en particular. ¿Alguna otra idea sobre cómo elegir un df? ¿Debería mirar el significado de la spline?

Mirando un poco más entre df = 10 y df = 15, parece que df = 12 es lo más cercano que puede llegar a la estimación generada por 128 y aún se encuentra en el rango de "grados razonables de libertad". Junto con el término lineal, la intersección y el término paramétrico único, se siente como un modelo bastante saturado. ¿Es justificable ir con 12?

Como segunda actualización, cambiar el suavizado de spline(t)a loess(t)resulta en estimaciones de df mucho más bien comportadas. ¿Debería cambiar a suavizado de loess?

— Fomite
fuente

En su conjunto de datos con 132 observaciones, ¿hay un recuento asociado y un término de compensación, lo que implica que en realidad es un conjunto de datos ponderado con muchas más de 132 observaciones? Debido a la relación de varianza media en los RV de Poisson, los recuentos grandes pueden conducir a propiedades de "selección de modelo" que son desfavorables debido al "gran tamaño de muestra".

— AdamO

El conjunto de datos tiene 132 semanas de datos, modelados como recuentos = términos del modelo + log (persona-tiempo) como un desplazamiento. Los recuentos nunca son particularmente altos, pero hay un buen número de ceros.

— Fomite

5

$\lambda$ $\lambda$ $\lambda$

Wood (2011) también ilustra que AICc no proporciona muchos beneficios adicionales sobre GCV para bases de rango bajo a intermedio utilizadas para las funciones suaves.

$\lambda$

Wood (2011) describe los procedimientos de estimación de REML y ML que son rápidos y estables, lo que demuestra que mejora los enfoques REML (ML) existentes en términos de convergencia. Estas ideas están disponibles en Simon mgcv paquete para R .

Como Wood (2011) está detrás de un muro de pago, incluyo una copia de una imagen similar (los resultados de AICc no se muestran aquí) tomada de un conjunto de diapositivas de Simon, disponible en su sitio web , sobre métodos de selección de suavidad {PDF}. La figura, de la diapositiva 10, se muestra a continuación.

ingrese la descripción de la imagen aquí

$\lambda$ $\lambda$ $\lambda$

$y = f(x) + \varepsilon$

Como mencionan @ M.Berk y @BrendenDufault, es posible que se requiera un cierto grado de subjetividad al configurar la base de spline, en términos de seleccionar una dimensión de base adecuada desde la cual ajustar el GAM. Pero la selección de suavidad REML ha demostrado ser razonablemente robusta en mi experiencia en una gama de aplicaciones GAM que utilizan los métodos de Wood.

Wood, SN (2011) Estimación de probabilidad máxima restringida estable rápida y probabilidad marginal de modelos lineales generalizados semiparamétricos . J. Royal Statistical Society B 73 (Parte 1), 3--6.

— Gavin Simpson
fuente

@EpiGrad Bienvenido. Lo siento, me perdí la pregunta en ese momento; durante el último año o dos, he estado luchando con situaciones similares a las suyas y he leído los documentos de Simon Wood sobre esto y la selección de funciones en varias ocasiones. Me alegro de haber podido recordar algunos detalles para ayudar.

— Gavin Simpson

3

Creo que su mejor apuesta está fuera de los algoritmos de suavizado; considere la parsimonia modelo.

Alude a esto, pero creo que debe convertirse en su criterio principal de selección. Pregúntese cuántas "curvas" parecen razonables en función de la etiología / causalidad de los procesos que se están modelando. Grafique las splines ajustadas con el plots=components(clm)enunciado y evalúe visualmente el ajuste. Quizás las altas splines del DF están contando una historia similar a las bajas splines del DF, excepto más ruidosamente. En ese caso, elija un ajuste DF bajo.

Después de todo, los modelos GAM están destinados a ser exploratorios.

Habiendo usado la opción gcv yo mismo, me pregunto acerca de su rendimiento en condiciones de Poisson, datos escasos, etc. Quizás aquí se deba realizar un estudio de simulación.

— Brenden Dufault
fuente

2

Escribí la siguiente respuesta y luego me di cuenta de que no tengo idea si es aplicable a la regresión de Poisson con la que no tengo experiencia. Quizás la gente pueda responder eso con algunos comentarios.

Personalmente, me gusta el consejo de BW Silverman (1985) "Algunos aspectos del enfoque de suavizado de splines para el ajuste de la curva de regresión no paramétrica (con discusión)". (Disponible sin suscripción aquí ): pruebe una variedad de parámetros de suavizado y elija el que sea visualmente más atractivo.

Como también señala acertadamente en el mismo documento, aunque puede preferirse un enfoque subjetivo, todavía existe la necesidad de métodos automáticos. Sin embargo, el GCV generalmente es una mala elección ya que tiende a ser poco convincente. Véase, por ejemplo, Hurvich et al (1998) "Selección de parámetros de suavizado en regresión no paramétrica utilizando un criterio de información de Akaike mejorado" (disponible sin suscripción aquí ). En el mismo documento proponen un nuevo criterio que puede aliviar su problema, el AIC corregido que incluye una pequeña corrección del tamaño de la muestra. Puede encontrar la descripción de Wikipedia de AICc más fácil de seguir que el documento. El artículo de Wikipedia también incluye algunos buenos consejos de Burnham & Anderson (es decir, use AICc en lugar de AIC independientemente del tamaño de la muestra).

En resumen, mis sugerencias serían, en orden de preferencia:

Elija el parámetro de suavizado manualmente mediante evaluación visual
Use el AIC corregido (AICc) en lugar del GCV
Use el AIC estándar

— M. Berk
fuente