¿Qué modelo de regresión es el más apropiado para usar con datos de conteo?

Estoy tratando de meterme un poco en las estadísticas, pero estoy atascado con algo. Mis datos son los siguientes:

Year   Number_of_genes
1990          1
1991          1
1993          3
1995          4

Ahora quiero construir un modelo de regresión para poder predecir la cantidad de genes para un año determinado con base en los datos. Lo hice con regresión lineal hasta ahora, pero he leído un poco y no parece ser la mejor opción para este tipo de datos. He leído que la regresión de Poisson podría ser útil, pero no estoy seguro de qué usar. Entonces mi pregunta es:

¿Existe un modelo de regresión general para este tipo de datos? En caso negativo, ¿qué debo hacer para averiguar qué método es el más apropiado para usar (en términos de lo que tengo que averiguar sobre los datos)?

regression count-data poisson-regression

— secuencia_dura
fuente

Mi respuesta aquí: stats.stackexchange.com/questions/142338/… es muy relevante.

— kjetil b halvorsen

¿Se trata de datos de series temporales?

— Michael M

Respuestas:

No, no existe un modelo de regresión de datos de conteo general .

(Al igual que no existe un modelo de regresión general para datos continuos. Se asume con mayor frecuencia un modelo lineal con ruido homoscedastic normalmente distribuido, y se ajusta utilizando mínimos cuadrados ordinarios. Sin embargo, la regresión gamma o la regresión exponencial a menudo se utilizan para tratar diferentes supuestos de distribución de errores , o modelos de heteroscedasticidad condicional, como ARCH o GARCH en un contexto de serie temporal, para tratar el ruido heteroscedastic).

Los modelos comunes incluyen la regresión de Poisson , mientras escribe, o la regresión binomial negativa. Estos modelos están suficientemente extendidos para encontrar todo tipo de software, tutoriales o libros de texto. Me gusta especialmente la regresión binomial negativa de Hilbe . Esta pregunta anterior discute cómo elegir entre diferentes modelos de datos de conteo.

Si tiene "muchos" ceros en sus datos, y especialmente si sospecha que los ceros podrían ser impulsados por un proceso de generación de datos diferente a los que no son ceros (o que algunos ceros provienen de un DGP, y otros ceros y no ceros provienen de un DGP diferente), los modelos de inflación cero pueden ser útiles. La más común es la regresión de Poisson (ZIP) inflada a cero.

También puede hojear nuestras preguntas anteriores etiquetadas como "regresión" y "datos de conteo" .

EDITAR: @MichaelM plantea un buen punto. Esto hace ver como la serie de tiempo de datos de recuento. (Y los datos faltantes para 1992 y 1994 me sugieren que debería haber un cero en cada uno de estos años. Si es así, inclúyalo. El cero es un número válido y sí contiene información). A la luz de esto, yo También sugeriría que revisemos nuestras preguntas anteriores etiquetadas como "series de tiempo" y "datos de conteo" .

— Stephan Kolassa
fuente

Bien, pero los mínimos cuadrados ordinarios son un procedimiento de estimación, no un modelo. Lo sabes, pero es una confusión común, por lo que no deberíamos escribir complaciéndolo.

— Nick Cox

@ NickCox: buen punto. Edité mi publicación.

— Stephan Kolassa

La distribución de elección "predeterminada", la más utilizada y descrita, para los datos de conteo es la distribución de Poisson . La mayoría de las veces se ilustra utilizando ejemplos de su primer uso práctico:

Ladislaus Bortkiewicz hizo una aplicación práctica de esta distribución en 1898 cuando se le asignó la tarea de investigar el número de soldados del ejército prusiano muertos accidentalmente por patadas a caballo; Este experimento introdujo la distribución de Poisson en el campo de la ingeniería de confiabilidad.

La distribución de Poisson se parametriza por tasa por intervalo de tiempo fijo ( también es su media y varianza). En caso de regresión, podemos usar la distribución de Poisson en un modelo lineal generalizado con función de enlace log-lineal $\lambda$ $\lambda$

E (Y | X, β) = λ = \exp (β_{0} + β_{1} X_{1} + \dots + β_{k} X_{k})

$E(Y|X,\beta) = \lambda = \exp\left( \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k \right)$

eso se llama regresión de Poisson , ya que podemos suponer que es una tasa de distribución de Poisson. Sin embargo, tenga en cuenta que para la regresión lineal logarítmica no tiene que hacer tal suposición y simplemente usar GLM con enlace de registro con datos sin conteo. Al interpretar los parámetros, debe recordar que, debido al uso de la transformación logarítmica, los cambios en la variable independiente dan como resultado cambios multiplicativos en los recuentos pronosticados. $\lambda$

El problema con el uso de la distribución de Poisson para los datos de la vida real es que supone que la media es igual a la varianza. La violación de esta suposición se llama sobredispersión . En tales casos, siempre puede usar el modelo cuasi-Poisson , el modelo no lineal de Poisson (para recuentos grandes, Poisson se puede aproximar por distribución normal), regresión binomial negativa (estrechamente relacionada con Poisson; ver Berk y MacDonald, 2008), o otros modelos, según lo descrito por Stephan Kolassa .

Para una introducción amigable a la regresión de Poisson, también puede consultar documentos de Lavery (2010) o Coxe, West y Aiken (2009).

Lavery, R. (2010). Una guía animada: una introducción a la regresión de Poisson. Papel NESUG, sa04.

Coxe, S., West, SG y Aiken, LS (2009). El análisis de los datos de conteo: una introducción suave a la regresión de Poisson y sus alternativas. Revista de evaluación de la personalidad, 91 (2), 121-136.

Berk, R. y MacDonald, JM (2008). Sobredispersión y regresión de Poisson. Revista de criminología cuantitativa, 24 (3), 269-284.

— Tim
fuente

Combina ajustar una distribución de Poisson con el uso de una regresión de Poisson. No es un requisito absoluto para la regresión de Poisson que la respuesta tenga una distribución de Poisson. La regresión de Poisson funciona bien para una amplia variedad de respuestas positivas, incluidas las variables medidas también. Es una buena idea tener cuidado con los errores estándar de inferencia, pero eso es manejable. Ver, por ejemplo, blog.stata.com/2011/08/22/…

— Nick Cox

@NickCox está bien, pero la pregunta era estrictamente sobre los datos de conteo, por lo que probablemente no sea necesario entrar en detalles sobre otros usos de la regresión de Poisson.

— Tim

No es necesario entrar en detalles, de acuerdo; pero todas las razones para empujar un poco la regresión de Poisson. Su utilidad es asombrosamente poco conocida; merece estar en muchos más textos intermedios al menos. Además, y lo más importante aquí, no estoy de acuerdo en absoluto en que una vez que la varianza no sea igual signifique que debe usar otros modelos; Esto confunde dos problemas muy diferentes.

— Nick Cox

Además, el hecho de que la regresión de Poisson se puede usar con variables medidas es pertinente, ya que en tales casos si la media es igual a la varianza ni siquiera es significativa, ya que tienen dimensiones diferentes. Tales casos subrayan que el requisito no existe.

— Nick Cox

Parte del problema es la terminología. En mi opinión, la regresión logarítmica sería un término mejor que la regresión de Poisson, dado el punto clave de que ser Poisson no es central. Pero si tal término se usa y se entiende en absoluto, generalmente es para modelar datos categóricos contados. Entonces, la terminología es bastante incorrecta: loglineal debería ser Poisson y Poisson debería ser loglinear. De cualquier manera, el meollo del asunto es que es un excelente puerto de primera llamada para la estructura media de las respuestas no negativas en general.

\exp (X b)

$\exp(Xb)$

— Nick Cox

Poisson o binomio negativo son dos modelos ampliamente utilizados para los datos de conteo. Optaría por el binomio negativo ya que tiene mejores suposiciones para la varianza.

¿Qué quieres decir con "mejor"?

— Tim

Tal como está, esto es más un comentario que una respuesta. ¿Crees que podrías ampliarlo? Seguramente deberías pensar en el comentario de Tim: la palabra "mejor" es muy vaga

— Silverfish

Los modelos binomiales negativos (NB) se ocupan de los datos de recuento sobredispersos (OD) suponiendo que se deben a la agrupación. Luego utiliza un modelo de intercepción aleatorio con una estructura de Poisson distribuida 'dentro' y una estructura 'distribuida' entre 'gamma. Lo que es mejor depende de su suposición para OD. Si supone que el grado de OD varía con el tamaño del clúster, NB puede ayudar. Si asume que asume que OD es proporcional al tamaño del clúster, cuasi-poisson tiene esta suposición. Las estimaciones de NB estarán sesgadas si la DO es solo ruido gaussiano. Poisson estará menos sesgado, pero los errores estándar pueden ser demasiado pequeños con OD.

— Mainard