¿Por qué hacemos tanto escándalo sobre el uso de la puntuación de Fisher cuando ajustamos un GLM?

16

Tengo curiosidad acerca de por qué tratamos el ajuste de GLMS como si fueran un problema especial de optimización. ¿Son ellos? Me parece que son solo la máxima probabilidad, y que escribimos la probabilidad y luego ... ¡la maximizamos! Entonces, ¿por qué utilizamos la puntuación de Fisher en lugar de cualquiera de los miles de esquemas de optimización que se han desarrollado en la literatura matemática aplicada?

generalized-linear-model optimization fisher-scoring

— Andrew Robinson
fuente

13

La calificación de Fisher es solo una versión del método de Newton que se identifica con GLM, no tiene nada de especial, aparte del hecho de que la matriz de información de Fisher resulta bastante fácil de encontrar para variables aleatorias en la familia exponencial. También se vincula con muchos otros materiales de estadísticas matemáticas que tienden a aparecer casi al mismo tiempo, y proporciona una buena intuición geométrica sobre lo que significa exactamente la información de Fisher.

No hay absolutamente ninguna razón por la que pueda pensar en no usar algún otro optimizador si lo prefiere, aparte de eso, es posible que tenga que codificarlo a mano en lugar de usar un paquete preexistente. Sospecho que cualquier énfasis fuerte en la puntuación de Fisher es una combinación de (en orden de peso decreciente) pedagogía, facilidad de derivación, sesgo histórico y síndrome de "no inventado aquí".

— Rico
fuente

1

No creo que esto sea del todo correcto: el algoritmo IRLS usa el Hessian esperado, mientras que Newton-Raphson usa el Hessian observado; consulte gen.lib.rus.ec/… para obtener una comparación detallada de los 2 algoritmos ...

— Tom Wenseleers

9

Es histórico y pragmático; Los GLM de ingeniería inversa de Nelder y Wedderburn, como el conjunto de modelos en los que puede encontrar el MLE utilizando la puntuación de Fisher (es decir, mínimos cuadrados re ponderados iterativamente). El algoritmo llegó antes que los modelos, al menos en el caso general.

También vale la pena recordar que IWLS era lo que tenían disponible a principios de los 70, por lo que los GLM eran una clase importante de modelos para conocer. El hecho de que pueda maximizar las probabilidades de GLM de manera confiable utilizando algoritmos de tipo Newton (generalmente tienen MLE únicos) también significó que aquellos que no tienen habilidades en optimización numérica podrían usar programas como GLIM.

— invitado
fuente

No creo que esto sea del todo correcto: el algoritmo IRLS usa el Hessian esperado, mientras que Newton-Raphson usa el Hessian observado; vea gen.lib.rus.ec/… para una comparación detallada de los 2 algoritmos ...

— Tom Wenseleers