La distribución de elección "predeterminada", la más utilizada y descrita, para los datos de conteo es la distribución de Poisson . La mayoría de las veces se ilustra utilizando ejemplos de su primer uso práctico:
Ladislaus Bortkiewicz hizo una aplicación práctica de esta distribución en 1898 cuando se le asignó la tarea de investigar el número de soldados del ejército prusiano muertos accidentalmente por patadas a caballo; Este experimento introdujo la distribución de Poisson en el campo de la ingeniería de confiabilidad.
La distribución de Poisson se parametriza por tasa por intervalo de tiempo fijo ( también es su media y varianza). En caso de regresión, podemos usar la distribución de Poisson en un modelo lineal generalizado con función de enlace log-linealλλλ
E(Y|X,β)=λ=exp(β0+β1X1+⋯+βkXk)
eso se llama regresión de Poisson , ya que podemos suponer que es una tasa de distribución de Poisson. Sin embargo, tenga en cuenta que para la regresión lineal logarítmica no tiene que hacer tal suposición y simplemente usar GLM con enlace de registro con datos sin conteo. Al interpretar los parámetros, debe recordar que, debido al uso de la transformación logarítmica, los cambios en la variable independiente dan como resultado cambios multiplicativos en los recuentos pronosticados.λ
El problema con el uso de la distribución de Poisson para los datos de la vida real es que supone que la media es igual a la varianza. La violación de esta suposición se llama sobredispersión . En tales casos, siempre puede usar el modelo cuasi-Poisson , el modelo no lineal de Poisson (para recuentos grandes, Poisson se puede aproximar por distribución normal), regresión binomial negativa (estrechamente relacionada con Poisson; ver Berk y MacDonald, 2008), o otros modelos, según lo descrito por Stephan Kolassa .
Para una introducción amigable a la regresión de Poisson, también puede consultar documentos de Lavery (2010) o Coxe, West y Aiken (2009).
Lavery, R. (2010). Una guía animada: una introducción a la regresión de Poisson. Papel NESUG, sa04.
Coxe, S., West, SG y Aiken, LS (2009). El análisis de los datos de conteo: una introducción suave a la regresión de Poisson y sus alternativas. Revista de evaluación de la personalidad, 91 (2), 121-136.
Berk, R. y MacDonald, JM (2008). Sobredispersión y regresión de Poisson. Revista de criminología cuantitativa, 24 (3), 269-284.