Estoy tratando de ajustar una regresión para explicar el número de homicidios en cada distrito de una ciudad. Aunque sé que mis datos siguen una distribución de Poisson, intenté ajustar un OLS como este:
Luego, también probé (¡por supuesto!) Una regresión de Poisson. El problema es que tengo mejores resultados en la regresión de OLS: el pseudo- es mayor (0.71 vs 0.57) y el RMSE también (3.8 vs 8.88. Estandarizado para tener la misma unidad).
¿Por qué? ¿Es normal? ¿Qué hay de malo en usar el OLS sin importar cuál sea la distribución de los datos?
editar Siguiendo las sugerencias de kjetil b halvorsen y otros, ajusté los datos a través de dos modelos: OLS y Negative Binomial GLM (NB). Comencé con todas las características que tengo, luego eliminé recursivamente una por una las características que no eran significativas. OLS es
con pesas = .
summary(w <- lm(sqrt(num/area) ~ RNR_nres_non_daily + RNR_nres_daily + hType_mix_std + area_filtr + num_community_places+ num_intersect + pop_rat_num + employed + emp_rat_pop + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_highways+ mdist_parks, data=p, weights=area))
error2 <- p$num - (predict(w, newdata=p[,-1:-2], type="response")**2)*p$area
rmse(error2)
[1] 80.64783
El NB predice el número de delitos, con el área del distrito como compensación.
summary(m3 <- glm.nb(num ~ LUM5_single + RNR_nres + mdist_daily + mdist_non_daily+ hType_mix_std + ratio_daily_nondaily_area + area_filtr + num_community_places + employed + nden_daily + nden_non_daily+ bld_rat_area + bor_rat_area + mdist_smallparks + mdist_highways+ mdist_parks + offset(log(area)), data=p, maxit = 1000))
error <- p$num - predict(m3, newdata=p[,-1:-2], type="response")
rmse(error)
[1] 121.8714
Residuos de OLS:
NB residuales
Entonces, el RMSE es más bajo en el OLS pero parece que los residuos no son tan normales ...