¿Cómo decidir qué familia glm usar?


17

Tengo datos de densidad de peces que estoy tratando de comparar entre varias técnicas de recolección diferentes, los datos tienen muchos ceros y el histograma parece vaugley apropiado para una distribución de Poisson, excepto que, como densidades, no son datos enteros. Soy relativamente nuevo en GLM y pasé los últimos días buscando en línea cómo saber qué distribución usar, pero no pude encontrar recursos que ayuden a tomar esta decisión. Un histograma de muestra de los datos tiene el siguiente aspecto:Histograma de muestra

No tengo idea de cómo decidir sobre la familia apropiada para usar para el GLM. Si alguien tiene algún consejo o me puede dar un recurso que debería consultar, sería fantástico.


1
¿Qué es exactamente la "densidad de peces"? ¿Es un número de peces por unidad de volumen de lago, por ejemplo?
gung - Restablece a Monica

Es el número de peces por unidad de área (en este caso, metros cuadrados). Utilizamos herramientas de inspección visual, por lo que se calcula por el número de peces observados dividido por el área encuestada por la herramienta. Tuvimos que usar la densidad para estandarizar entre las herramientas porque examinan cantidades muy diferentes de área, de lo contrario podría usar los datos de conteo y seguir con una distribución de Poisson.
C. Denney

77
Mi consejo: regrese a los datos de conteo y use el "área" como un desplazamiento en un modelo con un enlace de registro, pero no sé si el Poisson se ajustará muy bien (es un poco difícil de adivinar ya que su histograma solo muestra la distribución marginal en lugar de las distribuciones condicionales que el GLM estaría modelando ... y, en cualquier caso, tiene muy pocos contenedores para ser muy útiles). Si el Poisson no es muy pesado de cola / pico-a-0-ish suficiente, un trabajo puede binomial negativa, o puede que tenga ceros inflados o modelos de vallas
Glen_b -Reinstate Monica

Hago modelos de Poisson todo el día, todos los días y el comentario de Glen_b es la respuesta canónica.
Paul

2
Una adición: el modelado de Poisson está teóricamente bien justificado cuando las unidades de observación (en este caso, ¿supongo que cuenta peces individuales?) Se distribuyen independientemente en el campo de observación, como granos de arena esparcidos al azar. Bajo este supuesto, puede haber alguna variación en la densidad, pero la posición de un pez no implica nada sobre las posiciones de otros peces. Pero tenga en cuenta que esta suposición puede ser violada en la práctica porque los peces se agrupan, por ejemplo, en las escuelas, y luego sus posiciones ya no son independientes.
Paul

Respuestas:


8

Las familias GLM comprenden una función de enlace, así como una relación media-varianza. Para Poisson GLM, la función de enlace es un registro, y la relación media-varianza es la identidad. A pesar de las advertencias que le da la mayoría del software estadístico, es completamente razonable modelar una relación en datos continuos en la que la relación entre dos variables es lineal en la escala logarítmica, y la varianza aumenta de acuerdo con la media.

Esto, esencialmente, es la razón para elegir el enlace y la función de varianza en un GLM. Por supuesto, hay varios supuestos detrás de este proceso. Puede hacer un modelo más robusto utilizando quasilikelihood (ver ?quasipoisson) o errores estándar robustos (ver paquete sandwicho gee).

Ha notado correctamente que muchas densidades son 0 en sus datos. Bajo los modelos de probabilidad de Poisson, es apropiado muestrear ocasionalmente ceros en los datos, por lo que no es necesariamente el caso de que estas observaciones conduzcan a un sesgo en sus estimaciones de tasas.

Para inspeccionar las suposiciones detrás de los GLM, generalmente es útil observar los residuos de Pearson. Estos explican la relación de varianza media y muestran al estadístico si observaciones particulares, tales como estos 0, están afectando notoriamente la estimación y los resultados.


22

El modelo lineal generalizado se define en términos de predictor lineal

η=Xβ

g

g(E(Y|X))=η

YX=X1,X2,,XkYX

E(Y|X)=μ=g1(η)

entonces el modelo se puede definir en términos probabilísticos como

Y|Xf(μ,σ2)

ffYYXYX

Por otro lado, en la práctica, si está interesado en construir un modelo predictivo, puede estar interesado en probar algunas distribuciones diferentes, y al final aprender que uno de ellos le brinda resultados más precisos que los otros, incluso si no es el más "apropiado" en términos de consideraciones teóricas (por ejemplo, en teoría debería usar Poisson, pero en la práctica la regresión lineal estándar funciona mejor para sus datos).


2

Esta es una pregunta algo amplia, usted está preguntando cómo hacer modelos, y hay libros completos dedicados a eso. Por ejemplo, cuando se trata con datos de conteo, considere lo siguiente:

Además de elegir una distribución, debe elegir una función de enlace. Con los datos de recuento, puede probar la distribución binomial poisson o negativa y la función de enlace de registro. Aquí se da una razón para el enlace de registro: Bondad de ajuste y qué modelo elegir regresión lineal o Poisson Si sus parches tienen áreas muy diferentes, tal vez debería incluir el logaritmo de área como compensación, para contar el modelo por unidad de área y no absoluto cuenta. Para obtener una explicación del desplazamiento en la regresión de datos de recuento, consulte ¿ Cuándo usar un desplazamiento en una regresión de Poisson?

EDIT 

Esta respuesta se publicó originalmente en otra pregunta, que se fusionó con esta. Si bien la respuesta es general, comentó aspectos específicos de un conjunto de datos y un problema que ya no hay en la pregunta. La pregunta original se puede encontrar en el siguiente enlace: Familia en GLM: ¿cómo elegir la correcta?


No podemos resolver las preguntas, @kjetil, solo los desarrolladores pueden hacer eso (y realmente no les gusta). Sin embargo, todavía puedo acceder a la Q original. Una posibilidad es que pueda copiar el contenido en una nueva Q (que sería de mi autoría), podría copiar esta A en el nuevo hilo, y luego podría cerrar ese hilo como un duplicado de esto. Es difícil decir si es una idea loca, o si vale la pena, pero es lo que puedo hacer. ¿Tiene alguna preferencia?
gung - Restablecer Monica

@gung: Puedes hacer eso, o puedo copiar la información de esa pregunta en la respuesta aquí. Tal vez eso es lo mejor? (Puedo editar que parece del historial de edición)
kjetil b halvorsen

1
@kjetilbhalvorsen en primer lugar, perdón por haberlo estropeado ya que fue mi idea fusionar los hilos, ya que parecían ser casi lo mismo y ambos contenían buenas respuestas. Mi impresión inicial fue que fusionar los hilos no haría daño. ¿Quizás podría simplemente agregar "Por ejemplo, cuando se trata de datos de conteo ..." a su segundo párrafo? Su respuesta responde muy bien al general "¿Cómo elegir la familia?" pregunta, entonces ¿quizás valga la pena dejarlo en hilo general?
Tim

1
@Tim voy a editar como dices!
kjetil b halvorsen

Probemos la edición. Si quieres que vuelva a publicar la Q, vuelve a hacerme ping. Voy a despedir la bandera ahora.
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.