La regresión lineal no es la elección correcta para su resultado, dado:
- La variable de resultado no se distribuye normalmente
- La variable de resultado está limitada en los valores que puede asumir (los datos de conteo significan que los valores pronosticados no pueden ser negativos)
- Lo que parece ser una alta frecuencia de casos con 0 visitas
Modelos de variables dependientes limitadas para datos de conteo
La estrategia de estimación que puede elegir está dictada por la "estructura" de su variable de resultado. Es decir, si su variable de resultado está limitada en los valores que puede tomar (es decir, si es una variable dependiente limitada ), debe elegir un modelo en el que los valores pronosticados se encuentren dentro del rango posible para su resultado. Si bien a veces la regresión lineal es una buena aproximación para variables dependientes limitadas (por ejemplo, en el caso de logit / probit binario), a menudo no lo es. Ingrese modelos lineales generalizados . En su caso, debido a que la variable de resultado son los datos de conteo, tiene varias opciones:
- Modelo de Poisson
- Modelo binomial negativo
- Modelo de Poisson cero inflado (ZIP)
- Modelo Binomial Negativo Cero Inflado (ZINB)
La elección generalmente se determina empíricamente. Discutiré brevemente la elección entre estas opciones a continuación.
Poisson vs. Binomio negativo
θH0:θ=0H1:θ≠0θ
ZIP vs. ZINB
Una posible complicación es la inflación cero, que podría ser un problema aquí. Aquí es donde entran en juego los modelos ZIP y ZINB inflados con cero. Al usar estos modelos, usted asume que el proceso que genera los valores cero está separado del proceso que genera los otros valores distintos de cero. Al igual que antes, ZINB es apropiado cuando el resultado tiene ceros excesivos y se dispersa en exceso, mientras que ZIP es apropiado cuando el resultado tiene ceros excesivos pero media condicional = varianza condicional. Para los modelos inflados a cero, además de las covariables del modelo que ha enumerado anteriormente, deberá pensar en las variables que pueden haber generado los ceros en exceso que vio en el resultado. Una vez más, hay pruebas estadísticas que vienen con la salida de estos modelos (a veces puede que tenga que especificarlas cuando ejecuta un comando) que le permitiránθ
θH0:θ=0H1:θ≠0H0:Excess zeroes is not a result of a separate processH1:Excess zeroes is a result of a separate process
θθ
Finalmente, no uso R, pero la página de ejemplos de análisis de datos de IDRE en UCLA puede guiarlo en la adaptación de estos modelos.
[Edite por otro usuario sin suficiente reputación para comentar: este documento explica por qué no debe usar la prueba de Vuong para comparar un modelo de inflación cero y ofrece alternativas.
P. Wilson, "El mal uso de la prueba de Vuong para modelos no anidados para probar la inflación cero". Cartas de economía, 2015, vol. 127, número C, 51-53 ]