¿Sería ir demasiado lejos decir que valida mi elección de distribución?
Depende de lo que quieras decir con 'validar' exactamente, pero yo diría 'sí, eso va demasiado lejos' de la misma manera que no puedes decir realmente "se demuestra que la nula es verdadera", (especialmente con puntos nulos, pero al menos en un sentido más general). Realmente solo puedes decir "bueno, no tenemos pruebas sólidas de que esté mal". Pero, en cualquier caso, no esperamos que nuestros modelos sean perfectos, son modelos . Lo que importa, como dijo Box & Draper, es " qué tan equivocados tienen que estar para no ser útiles ".
Cualquiera de estas dos oraciones anteriores:
Esto parece sugerir (para mí) que la elección de una distribución gaussiana fue bastante razonable. O, al menos, que los residuos son consistentes con la distribución que utilicé en mi modelo.
describa con mucha más precisión lo que indican sus diagnósticos, no que un modelo gaussiano con enlace de registro fuera correcto , sino que fuera razonable o coherente con los datos.
Elegí una función de enlace de registro porque mi variable de respuesta siempre es positiva, pero me gustaría algún tipo de confirmación de que fuera una buena opción.
Si sabe que debe ser positivo, entonces su media debe ser positiva. Es sensato elegir un modelo que sea al menos consistente con eso. No sé si es una buena opción (bien podría haber opciones mucho mejores), pero es algo razonable; Bien podría ser mi punto de partida. [Sin embargo, si la variable en sí misma es necesariamente positiva, mi primer pensamiento tenderá a ser Gamma con log-link, en lugar de Gaussian. "Necesariamente positivo" sugiere asimetría y varianza que cambian con la media.]
P2: ¿Hay alguna prueba, como verificar los residuos para la elección de distribución, que pueda respaldar mi elección de la función de enlace?
Parece que no quiere decir 'prueba' como en 'prueba de hipótesis formal' sino más bien como 'verificación de diagnóstico'.
En cualquier caso, la respuesta es sí, los hay.
Una prueba de hipótesis formal es la prueba de bondad de enlace de Pregibon [1].
Esto se basa en integrar la función de enlace en una familia Box-Cox para hacer una prueba de hipótesis del parámetro Box-Cox.
Ver también la breve discusión de la prueba de Pregibon en Breslow (1996) [2] ( ver p. 14 ).
η= g( μ )X 's que están en el modelo, por lo que una evaluación básica podría considerar una gráfica de residuales contra los predictores. Por ejemplo,
rWyo=( yyo-μ^yo) ( ∂η∂μ)
(hacia lo que me inclinaría para esta evaluación), o tal vez observando las desviaciones de la linealidad en los residuos parciales, con un gráfico para cada predictor (véase, por ejemplo, Hardin y Hilbe, Modelos lineales generalizados y extensiones, segunda edición, sección 4.5 .4 p54, para la definición),
rTk i= ( yyo- μ^yo) ( ∂η∂μ) + xyo kβ^k
= rWyo+ xyo kβ^k
En los casos en que los datos admiten la transformación por la función de enlace, podría buscar la linealidad de la misma manera que con la regresión lineal (aunque puede haber dejado asimetría y posiblemente heterocedasticidad).
En el caso de los predictores categóricos, la elección de la función de enlace es más una cuestión de conveniencia o de interpretación, el ajuste debe ser el mismo (por lo que no es necesario evaluarlo).
También podría basar un diagnóstico en el enfoque de Pregibon.
Estos no forman una lista exhaustiva; Puede encontrar otros diagnósticos discutidos.
[Dicho esto, estoy de acuerdo con la evaluación de Gung de que la elección de la función de enlace debe basarse inicialmente en cosas como consideraciones teóricas, cuando sea posible].
Vea también parte de la discusión en esta publicación , que es al menos parcialmente relevante.
[1]: Pregibon, D. (1980),
"Pruebas de bondad de enlace para modelos lineales generalizados",
Journal of the Royal Statistical Society. Serie C (Estadística Aplicada) ,
vol. 29, núm. 1, págs. 15-23.
[2]: Breslow NE (1996),
"Modelos lineales generalizados: comprobación de supuestos y fortalecimiento de conclusiones",
Statistica Applicata 8 , 23-41.
pdf