¿Por qué minimizar el MAE lleva a pronosticar la mediana y no la media?

20

Del libro de texto Pronósticos: Principios y práctica de Rob J Hyndman y George Athanasopoulos , específicamente la sección sobre medición de precisión :

Un método de pronóstico que minimiza el MAE conducirá a pronósticos de la mediana, mientras que minimizar el RMSE conducirá a pronósticos de la media

¿Alguien puede dar una explicación intuitiva de por qué minimizar el MAE lleva a pronosticar la mediana y no la media? ¿Y qué significa esto en la práctica?

Le pregunté a un cliente: "¿qué es más importante para usted para hacer pronósticos medios más precisos o para evitar pronósticos muy inexactos?". Dijo que para hacer pronósticos medios más precisos tienen mayor prioridad. Entonces, en este caso, ¿debo usar MAE o RMSE? Antes de leer esta cita, creía que MAE sería mejor para tal condición. Y ahora lo dudo.

— Brans Ds
fuente

17

Es útil dar un paso atrás y olvidarse del aspecto del pronóstico por un minuto. Consideremos cualquier distribución y supongamos que deseamos resumirla usando un solo número. $F$

Aprende muy temprano en sus clases de estadísticas que usar la expectativa de como un resumen de un solo número minimizará el error al cuadrado esperado. $F$

La pregunta ahora es: ¿por qué el uso de la mediana de minimiza el error absoluto esperado ? $F$

Para esto, a menudo recomiendo "Visualizar la mediana como la ubicación de desviación mínima" de Hanley et al. (2001, El estadístico estadounidense ) . Instalaron un pequeño applet junto con su documento, que desafortunadamente probablemente ya no funciona con los navegadores modernos, pero podemos seguir la lógica en el documento.

Suponga que se para frente a un banco de ascensores. Pueden estar dispuestos a espacios iguales, o algunas distancias entre las puertas de los ascensores pueden ser más grandes que otras (por ejemplo, algunos ascensores pueden estar fuera de servicio) Frente a la cual ascensor debe soportar que la caminata esperado mínimo cuando uno de los ascensores qué llegan? ¡Tenga en cuenta que esta caminata esperada juega el papel del error absoluto esperado!

Supongamos que tiene tres ascensores A, B y C.

Si espera frente a A, es posible que deba caminar de A a B (si llega B), o de A a C (si llega C), ¡ pasando B!
Si espera frente a B, debe caminar de B a A (si llega A) o de B a C (si llega C).
Si espera frente a C, debe caminar de C a A (si llega A) - pasando B - o de C a B (si llega B).

Tenga en cuenta que desde la primera y última posición de espera, hay una distancia - AB en la primera, BC en la última posición - que necesita caminar en múltiples casos de ascensores que llegan. Por lo tanto, su mejor opción es pararse justo en frente del elevador del medio, independientemente de cómo estén dispuestos los tres elevadores.

Aquí está la Figura 1 de Hanley et al .:

Esto se generaliza fácilmente a más de tres ascensores. O a ascensores con diferentes posibilidades de llegar primero. O de hecho a infinitamente muchos ascensores. Entonces podemos aplicar esta lógica a todas las distribuciones discretas y luego pasar al límite para llegar a distribuciones continuas.

Para volver al pronóstico, debe tener en cuenta que subyacente a su pronóstico puntual para un segmento de tiempo futuro en particular, hay un pronóstico de densidad (generalmente implícito) o distribución predictiva, que resumimos utilizando un pronóstico numérico único. El argumento anterior muestra por qué la mediana de su densidad predictiva es el pronóstico puntual que minimiza el error absoluto esperado o MAE. (Para ser más precisos, cualquier mediana puede ser útil, ya que puede no estar definida de manera única; en el ejemplo del ascensor, esto corresponde a tener un número par de ascensores). $\hat{F}$

Y, por supuesto, la mediana puede ser bastante diferente de la expectativa si es asimétrica. Un ejemplo importante es con datos de recuento de bajo volumen , especialmente series temporales intermitentes . De hecho, si tiene un 50% o más de posibilidades de cero ventas, por ejemplo, si las ventas se distribuyen en Poisson con el parámetro , minimizará su error absoluto esperado pronosticando un cero plano, lo cual es poco intuitivo , incluso para series temporales muy intermitentes. Escribí un pequeño artículo sobre esto ( Kolassa, 2016, International Journal of Forecasting ). $\hat{F}$ $\lambda\leq \ln 2$

Por lo tanto, si sospecha que su distribución predictiva es (o debería ser) asimétrica, como en los dos casos anteriores, entonces si desea obtener pronósticos de expectativas imparciales, use el rmse . Si se puede suponer que la distribución es simétrica (típicamente para series de gran volumen), entonces la mediana y la media coinciden, y el uso de mae también lo guiará a pronósticos imparciales, y el MAE es más fácil de entender.

Del mismo modo, minimizar el mape puede conducir a pronósticos sesgados, incluso para distribuciones simétricas. Esta respuesta mía anterior contiene un ejemplo simulado con una serie estrictamente positiva distribuida asimétricamente (distribuida lognormalmente) que puede pronosticarse de manera significativa utilizando tres pronósticos puntuales diferentes, dependiendo de si queremos minimizar el MSE, el MAE o el MAPE.

— S. Kolassa - Restablece a Monica
fuente

9

La respuesta de Stephan le da una explicación intuitiva de por qué la minimización del error promedio absoluto le da la mediana. Ahora para responder cuál de los MSE, MAE o MAPE usar:

El MAE es robusto , lo que significa que es menos sensible a los valores atípicos. Imagine una serie con un error un millón de veces mayor de lo que debería. En el MSE, extraerá el pronóstico un millón / N veces (donde N es el número de puntos), mientras que el MAE solo se extraerá para 1 unidad.

Desafortunadamente, el MAE no es único , por lo que puede exhibir algún tipo de comportamiento esquizofrénico.

Entonces, mi recomendación es hacer primero un MSE, luego usar los parámetros de MSE para comenzar la regresión de MAE.

En cualquier caso, compare ambos pronósticos: si son muy diferentes, entonces hay algo maloliente en sus datos.

— AlainD
fuente