Gracias por la interesante pregunta!
Diferencia: Una limitación de los modelos de conteo estándar es que se supone que los ceros y los no ceros (positivos) provienen del mismo proceso de generación de datos. Con los modelos de obstáculos , estos dos procesos no están obligados a ser iguales. La idea básica es que una probabilidad de Bernoulli gobierna el resultado binario de si una variante de conteo tiene una realización cero o positiva. Si la realización es positiva, se cruza el obstáculo y la distribución condicional de los positivos se rige por un modelo de datos de recuento truncado en cero. Con modelos inflados a cero, la variable de respuesta se modela como una mezcla de una distribución de Bernoulli (o llámela masa de punto en cero) y una distribución de Poisson (o cualquier otra distribución de conteo admitida en enteros no negativos). Para más detalles y fórmulas, ver, por ejemplo, Gurmu y Trivedi (2011) y Dalrymple, Hudson y Ford (2003).
Ejemplo: los modelos de obstáculo pueden estar motivados por procesos de toma de decisiones secuenciales que enfrentan los individuos. Primero decide si necesita comprar algo, y luego decide la cantidad de ese algo (que debe ser positivo). Cuando se le permite (o potencialmente puede) comprar nada después de su decisión de comprar algo, es un ejemplo de una situación en la que el modelo inflado a cero es apropiado. Los ceros pueden provenir de dos fuentes: a) ninguna decisión de compra; b) quería comprar pero terminó comprando nada (por ejemplo, sin existencias).
Beta: El modelo de obstáculo es un caso especial del modelo de dos partes descrito en el Capítulo 16 de Frees (2011). Allí, veremos que para los modelos de dos partes, la cantidad de atención médica utilizada puede ser una variable continua y una cuenta. Entonces, lo que en la literatura se ha denominado confusamente "distribución beta inflada a cero" en realidad pertenece a la clase de distribuciones y modelos de dos partes (tan común en la ciencia actuarial), que es consistente con la definición anterior de un modelo de obstáculo . Este excelente libro discutió los modelos con inflación cero en la sección 12.4.1 y los modelos de obstáculo en la sección 12.4.2, con fórmulas y ejemplos de aplicaciones actuariales.
Historia: los modelos de Poisson (ZIP) inflados a cero sin covariables tienen una larga historia (véase, por ejemplo, Johnson y Kotz, 1969). La forma general de los modelos de regresión ZIP que incorporan covariables se debe a Lambert (1992). Los modelos de obstáculos fueron propuestos por primera vez por un estadístico canadiense Cragg (1971), y más tarde desarrollados por Mullahy (1986). También puede considerar Croston (1972), donde se utilizan recuentos geométricos positivos junto con el proceso de Bernoulli para describir un proceso de valores enteros dominado por ceros.
R: Finalmente, si usa R, hay un paquete pscl para "Clases y métodos para R desarrollado en el Laboratorio Computacional de Ciencias Políticas" por Simon Jackman, que contiene las funciones de obstáculo () y zeroinfl () de Achim Zeileis.
Se han consultado las siguientes referencias para producir lo anterior:
- Gurmu, S. y Trivedi, PK Exceso de ceros en modelos de conteo para viajes recreativos Journal of Business & Economic Statistics, 1996, 14, 469-477
- Johnson, N., Kotz, S., Distribuciones en Estadística: Distribuciones discretas. 1969, Houghton MiZin, Boston
- Lambert, D., regresión de Poisson inflada a cero con una aplicación a defectos en la fabricación. Technometrics, 1992, 34 (1), 1–14.
- Cragg, JG Algunos modelos estadísticos para variables dependientes limitadas con aplicación a la demanda de bienes duraderos Econometrica, 1971, 39, 829-844
- Mullahy, J. Especificación y prueba de algunos modelos de datos de conteo modificados Journal of Econometrics, 1986, 33, 341-365
- Frees, modelado de regresión EW con aplicaciones actuariales y financieras Cambridge University Press, 2011
- Dalrymple, ML; Hudson, IL y Ford, mezcla finita RPK, modelos de Poisson y Hurdle inflados a cero con aplicación a estadísticas computacionales y análisis de datos SIDS, 2003, 41, 491-504
- Croston, JD Pronósticos y control de existencias para demandas intermitentes Operational Research Quarterly, 1972, 23, 289-303