Tengo una pregunta sobre la distribución correcta para usar para crear un modelo con mis datos. Realicé un inventario forestal con 50 parcelas, cada parcela mide 20m × 50m. Para cada parcela, calculé el porcentaje de copa de los árboles que sombrea el suelo. Cada parcela tiene un valor, en porcentaje, para la cubierta del dosel. Los porcentajes varían de 0 a 0,95. Estoy haciendo un modelo de porcentaje de cobertura de copas de árboles ( variable Y ), con una matriz de variables X independientes basadas en imágenes satelitales y datos ambientales.
No estoy seguro de si debo usar una distribución binomial, ya que una variable aleatoria binomial es la suma de n ensayos independientes (es decir, variables aleatorias de Bernoulli). Los valores porcentuales no son la suma de los ensayos; Son los porcentajes reales. ¿Debo usar gamma, aunque no tenga un límite superior? ¿Debo convertir porcentajes a entero y usar Poisson como recuentos? ¿Debo seguir con Gaussian? No he encontrado muchos ejemplos en la literatura o en los libros de texto que intentan modelar porcentajes de esta manera. Cualquier sugerencia o idea es apreciada.
Gracias por sus respuestas. De hecho, la distribución beta es exactamente lo que necesito y se discute a fondo en este artículo:
Eskelson, BN, Madsen, L., Hagar, JC y Temesgen, H. (2011). Estimación de la cubierta vegetal de sotobosque ribereño con regresión Beta y modelos de cópula. Forest Science, 57 (3), 212-221.
Estos autores usan el paquete betareg en R de Cribari-Neto y Zeileis.
El siguiente artículo analiza una buena manera de transformar una variable de respuesta distribuida en beta cuando incluye 0 y / o 1 verdaderos en el rango de porcentajes:
- Smithson, M. y J. Verkuilen, 2006. ¿ Un mejor exprimidor de limones? Regresión de máxima verosimilitud con variables dependientes distribuidas beta , Métodos psicológicos, 11 (1): 54-71.