¿Por qué suponemos que el error se distribuye normalmente?

Me pregunto por qué usamos la suposición gaussiana al modelar el error. En el curso de ML de Stanford , el Prof. Ng lo describe básicamente de dos maneras:

Es matemáticamente conveniente. (Está relacionado con el ajuste de mínimos cuadrados y es fácil de resolver con pseudoinverso)
Debido al Teorema del límite central, podemos suponer que hay muchos hechos subyacentes que afectan el proceso y la suma de estos errores individuales tenderá a comportarse como en una distribución normal media cero. En la práctica, parece ser así.

Estoy interesado en la segunda parte en realidad. El Teorema del límite central funciona para las muestras iid hasta donde yo sé, pero no podemos garantizar que las muestras subyacentes sean iid.

¿Tiene alguna idea sobre la suposición gaussiana del error?

regression normality-assumption pac-learning

— petrichor
fuente

¿De qué escenario estás hablando? ¿Clasificación, regresión o algo más general?

— tdc

Hice la pregunta para el caso general. La mayoría de las historias comienzan con el supuesto de error gaussiano. Pero, personalmente, mi propio interés son las factorizaciones matriciales y las soluciones de modelos lineales (por ejemplo, la regresión).

— petrichor

Relevante: stats.stackexchange.com/questions/120776/…

— kjetil b halvorsen

Creo que básicamente has dado en el clavo en la pregunta, pero veré si puedo agregar algo de todos modos. Voy a responder esto de una manera indirecta ...

El campo de estadísticas robustas examina la cuestión de qué hacer cuando falla la suposición gaussiana (en el sentido de que hay valores atípicos):

a menudo se supone que los errores de datos se distribuyen normalmente, al menos aproximadamente, o que se puede confiar en el teorema del límite central para producir estimaciones distribuidas normalmente. Desafortunadamente, cuando hay valores atípicos en los datos, los métodos clásicos a menudo tienen un rendimiento muy pobre.

También se han aplicado en ML, por ejemplo en Mika el al. (2001) Enfoque de programación matemática para el algoritmo Kernel Fisher , describen cómo se puede usar la pérdida robusta de Huber con KDFA (junto con otras funciones de pérdida). Por supuesto, esta es una pérdida de clasificación, pero KFDA está estrechamente relacionada con la máquina de vectores de relevancia (consulte la sección 4 del documento de Mika).

Como se implica en la pregunta, existe una estrecha conexión entre las funciones de pérdida y los modelos de error bayesianos (consulte aquí para una discusión).

Sin embargo, tiende a darse el caso de que tan pronto como comience a incorporar funciones de pérdida "funky", la optimización se vuelve difícil (tenga en cuenta que esto también ocurre en el mundo bayesiano). Por lo tanto, en muchos casos, las personas recurren a funciones de pérdida estándar que son fáciles de optimizar y, en cambio, realizan un procesamiento previo adicional para garantizar que los datos se ajusten al modelo.

El otro punto que menciona es que el CLT solo se aplica a las muestras que son IID. Esto es cierto, pero los supuestos (y el análisis que lo acompaña) de la mayoría de los algoritmos son los mismos. Cuando comienzas a buscar datos que no son IID, las cosas se vuelven mucho más complicadas. Un ejemplo es si hay una dependencia temporal, en cuyo caso el enfoque es suponer que la dependencia solo abarca una determinada ventana y, por lo tanto, las muestras pueden considerarse aproximadamente IID fuera de esta ventana (ver, por ejemplo, este papel brillante pero resistente Chromatic PAC -Bayes Bounds para datos no IID: aplicaciones a los procesos de clasificación y mezcla β estacionaria ), después de lo cual se puede aplicar el análisis normal.

Entonces, sí, todo se reduce en parte a la conveniencia, y en parte porque en el mundo real, la mayoría de los errores se ven (aproximadamente) gaussianos. Por supuesto, siempre se debe tener cuidado al mirar un nuevo problema para asegurarse de que no se violen los supuestos.

— tdc
fuente

+1 Muchas gracias especialmente por mencionar sobre estadísticas robustas y no robustas. Observo que la media y la media con recorte alfa funciona generalmente mejor que la media en la práctica, pero no conocía la teoría detrás de ellas.

— petrichor

Otro elemento de conveniencia asociado con los datos distribuidos normalmente es que la correlación 0 implica independencia.

— AdamO

El comentario sobre IID-ness no es del todo correcto. Existen (varios) teoremas de límite central muy generales que se aplican cuando los resultados son independientes pero no están distribuidos de manera idéntica; ver, por ejemplo, el Lindeberg CLT. También hay resultados de CLT que ni siquiera necesitan independencia; pueden surgir de observaciones intercambiables, por ejemplo.

— invitado