Cálculo de intervalos de confianza mediante bootstrap en observaciones dependientes

El bootstrap, en su forma estándar, se puede usar para calcular los intervalos de confianza de las estadísticas estimadas, siempre que las observaciones sean idóneas. I. Visser y col. en " Intervalos de confianza para parámetros de modelo de Markov ocultos ", se utilizó una rutina de arranque paramétrica para calcular los CI para los parámetros HMM. Sin embargo, cuando ajustamos un HMM en una secuencia de observación, ya hemos asumido que las observaciones son dependientes (en contraste con los modelos de mezcla).

Tengo dos preguntas:

¿Qué hace la suposición de iid con el bootstrap?
¿Podemos ignorar el requisito de iid en un bootstrap paramétrico?

Visser y col. El método es brevemente como sigue:

Supongamos que tenemos una secuencia de observación resultado del muestreo de un HMM con un conjunto real pero desconocido de parámetros . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Los parámetros se pueden estimar utilizando el algoritmo EM: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
Use el HMM estimado para generar una muestra de bootstrap de tamaño : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
Estime los parámetros del HMM de acuerdo con el ejemplo de bootstrap: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
Repita los pasos 3 y 4 para veces (por ejemplo, = 1000), lo que da como resultado estimaciones de arranque : $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Calcule el CI de cada parámetro estimado usando la distribución de en las estimaciones de arranque. $\hat{\theta}_i$ $\hat{\theta}^*_i$

Notas (mis hallazgos):

El método de los percentiles se debe utilizar para calcular los IC para tener una cobertura correcta (la normalidad es una mala suposición).
El sesgo de la distribución bootstrap debe corregirse. Lo que significa que la media de distribución de debería cambiarse a $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
fuente

Primera pregunta en otras palabras: ¿Cuál es el efecto de la suposición de iid en el arranque? ¿Es un supuesto simplificador que se puede eliminar siguiendo un algoritmo o fórmula más complejo?

— Sábado

Respuestas cortas: 1. Lo simplifica. (Francamente, no recibí la pregunta). 2. No, nunca puede ignorarlo, ya que la falta de iid tiene consecuencias inmediatas sobre las variaciones de lo que esté estimando.

Respuesta media: prácticamente el problema central con el bootstrap es: "¿El procedimiento propuesto reproduce las características de los datos?" . La violación de la suposición de iid es un gran problema: sus datos son dependientes, usted (lo más probable) tiene menos información en sus datos que la que tendría en una muestra de iid del mismo tamaño, y si ejecuta un arranque ingenuo (vuelva a muestrear el individuo observaciones), los errores estándar que obtiene de él serán demasiado pequeños. El procedimiento propuesto evita el problema de la falta de independencia al capturar (o al menos intentar capturar) la dependencia en la estructura y los parámetros del modelo. Si tiene éxito, cada muestra de bootstrap reproducirá las características de los datos, según sea necesario.

Respuesta larga:Existen múltiples niveles de suposiciones sobre el bootstrap, e incluso en el caso más simple posible (datos de id, estimación de la media), debe hacer al menos tres supuestos: (1) la estadística de interés es una función fluida de los datos (cierto en el caso de la media, no tan cierto incluso en el caso de los percentiles, totalmente apagado con estimadores de coincidencia de vecinos más cercanos); (2) la distribución desde la que arranca está "cerca" de la distribución de la población (funciona bien en el caso de los datos de iid; puede no funcionar bien en el caso de los datos dependientes, donde esencialmente tiene solo una trayectoria = una observación en el caso de series de tiempo, y debe invocar supuestos adicionales como estacionariedad y mezcla para erigir esta observación en una cuasi población); (3) su muestreo de arranque de Monte Carlo es una aproximación suficientemente buena al arranque completo con todas las submuestras posibles (la inexactitud del uso de Monte Carlo frente al arranque completo es mucho menor que la incertidumbre que está tratando de capturar). En el caso de la rutina de arranque paramétrica, también supone que (4) su modelo explica perfectamente todas las características de los datos.

Como advertencia de lo que podría salir mal con (4), piense en la regresión con errores heteroscedasticos: , Var , por ejemplo. Si se ajusta a un modelo OLS y vuelve a muestrear los residuos como si fueran iid, obtendrá una respuesta incorrecta (algún tipo de donde es el promedio , en lugar del apropiado $y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ) Entonces, si quisiera tener una solución de arranque totalmente paramétrica, tendría que ajustar el modelo de heterocedasticidad junto con el modelo de la media. Y si sospecha una correlación serial u otro tipo de correlación, también tendría que adaptarse al modelo para eso. (Vea, el sabor sin distribución no paramétrica del bootstrap se ha ido por ahora, ya que ha reemplazado la voz de los datos con la voz sintetizada de su modelo).

El método que describió funciona alrededor de la suposición de iid creando una muestra completamente nueva. El mayor problema con el arranque de datos dependientes es crear la muestra que tendría los patrones de dependencia que serían lo suficientemente cercanos a los de los datos originales. Con series de tiempo, puede usar bloques de arranque; con datos agrupados, arranca los grupos completos; con la regresión heteroscedastica, debe hacerlo con bootstraps salvajes (que es una mejor idea que el bootstrap de residuos, incluso si le ha ajustado un modelo de heteroscedasticidad). En el bloque de arranque, debe hacer una suposición educada (o, en otras palabras, tener buenas razones para creer) que partes distantes de series temporales son aproximadamente independientes, de modo que toda la estructura de correlación es capturada por los 5 o 10 adyacentes. observaciones que forman el bloque. Entonces, en lugar de volver a muestrear las observaciones una por una, que ignora por completo la estructura de correlación de la serie de tiempo, las remuestrea en bloques, con la esperanza de que esto respete la estructura de correlación. La rutina de arranque paramétrica a la que te refieres dice: "En lugar de jugar con los datos y ensamblar las nuevas muñecas de las piezas de las antiguas, ¿por qué no simplemente sello a toda la Barbie moldeada por ti? He descubierto qué tipo de las Barbies que te gustan, y te prometo que también te haré una que quieras ". En lugar de jugar con los datos y ensamblar las nuevas muñecas a partir de las piezas de los viejos, ¿por qué no simplemente sello a toda la Barbie moldeada por ti? He descubierto qué tipo de Barbies te gusta, y prometo que te haré una que también te gustaría ". En lugar de jugar con los datos y ensamblar las nuevas muñecas a partir de las piezas de los viejos, ¿por qué no simplemente sello a toda la Barbie moldeada por ti? He descubierto qué tipo de Barbies te gusta, y prometo que te haré una que también te gustaría ".

En el caso de la rutina de arranque paramétrica que describió, debe estar bastante seguro de que el ajuste de su modelo HMM es bastante perfecto, de lo contrario, su rutina de arranque paramétrica puede conducir a resultados incorrectos (Barbies que no pueden mover sus brazos). Piense en el ejemplo de la regresión heteroscedastica anterior; o piense en ajustar un modelo AR (1) a datos AR (5): haga lo que haga con los datos simulados paramétricamente, no tendrán la estructura que solían tener los datos originales.

Editar : cuando Sadeghd aclaró su pregunta, también puedo responder a eso. Hay una gran variedad de procedimientos de arranque, cada uno aborda la peculiaridad particular en la estadística, el tamaño de la muestra, la dependencia o cualquier problema con el arranque. No hay una única forma de abordar la dependencia, por ejemplo. (He trabajado con bootstraps de encuestas, hay alrededor de 8 procedimientos diferentes, aunque algunos son principalmente de interés metodológico más que práctico; y algunos son claramente inferiores en el sentido de que solo son aplicables en casos especiales, no fácilmente generalizables). Para una discusión general de los problemas que podría enfrentar con el bootstrap, vea Canty, Davison, Hinkley y Ventura (2006). Diagnósticos y remedios de Bootstrap. The Canadian Journal of Statistics, 34 (1), 5-27 .

— StasK
fuente

Solo para agregar un poco a su afirmación sobre tener menos información cuando tiene grupos de datos dependientes (en la sección Medio ), creo que esto es cierto cuando hay una correlación positiva dentro de una clase dentro de un grupo, pero lo contrario es cierto cuando hay negativo correlación intraclase. Por supuesto, parece que en la mayoría de las aplicaciones de datos reales las correlaciones intraclase son positivas.

— Macro

@Macro: ciertamente tiene razón en ambos aspectos (que esto es técnicamente posible y que es prácticamente irrelevante). Lo mismo será cierto si estima el nivel medio de un proceso AR (1) con una correlación negativa, pero nuevamente estoy perdido pensando en procesos reales que podrían tener esta característica. A diferencia de la autocorrelación positiva que es auto-reproducible en diferentes escalas de tiempo, la correlación negativa tiene que desaparecer si duplica la duración de su período de referencia. (Los datos del ciclo económico, como el PIB de Estados Unidos, tienen correlaciones negativas en la longitud del rezago de unos tres años.)

— Stask

Gracias por tu respuesta detallada. Llegué a la conclusión de que el remuestreo paramétrico puede disminuir el efecto de la dependencia. Sin embargo, la distribución paramétrica debe ser, en buena medida, representativa de la población real, y los patrones de dependencia deben regenerarse en un nuevo muestreo.

— Sábado