Es útil dar un paso atrás y olvidarse del aspecto del pronóstico por un minuto. Consideremos cualquier distribución y supongamos que deseamos resumirla usando un solo número.F
Aprende muy temprano en sus clases de estadísticas que usar la expectativa de como un resumen de un solo número minimizará el error al cuadrado esperado.F
La pregunta ahora es: ¿por qué el uso de la mediana de minimiza el error absoluto esperado ?F
Para esto, a menudo recomiendo "Visualizar la mediana como la ubicación de desviación mínima" de Hanley et al. (2001, El estadístico estadounidense ) . Instalaron un pequeño applet junto con su documento, que desafortunadamente probablemente ya no funciona con los navegadores modernos, pero podemos seguir la lógica en el documento.
Suponga que se para frente a un banco de ascensores. Pueden estar dispuestos a espacios iguales, o algunas distancias entre las puertas de los ascensores pueden ser más grandes que otras (por ejemplo, algunos ascensores pueden estar fuera de servicio) Frente a la cual ascensor debe soportar que la caminata esperado mínimo cuando uno de los ascensores qué llegan? ¡Tenga en cuenta que esta caminata esperada juega el papel del error absoluto esperado!
Supongamos que tiene tres ascensores A, B y C.
- Si espera frente a A, es posible que deba caminar de A a B (si llega B), o de A a C (si llega C), ¡ pasando B!
- Si espera frente a B, debe caminar de B a A (si llega A) o de B a C (si llega C).
- Si espera frente a C, debe caminar de C a A (si llega A) - pasando B - o de C a B (si llega B).
Tenga en cuenta que desde la primera y última posición de espera, hay una distancia - AB en la primera, BC en la última posición - que necesita caminar en múltiples casos de ascensores que llegan. Por lo tanto, su mejor opción es pararse justo en frente del elevador del medio, independientemente de cómo estén dispuestos los tres elevadores.
Aquí está la Figura 1 de Hanley et al .:
Esto se generaliza fácilmente a más de tres ascensores. O a ascensores con diferentes posibilidades de llegar primero. O de hecho a infinitamente muchos ascensores. Entonces podemos aplicar esta lógica a todas las distribuciones discretas y luego pasar al límite para llegar a distribuciones continuas.
Para volver al pronóstico, debe tener en cuenta que subyacente a su pronóstico puntual para un segmento de tiempo futuro en particular, hay un pronóstico de densidad (generalmente implícito) o distribución predictiva, que resumimos utilizando un pronóstico numérico único. El argumento anterior muestra por qué la mediana de su densidad predictiva es el pronóstico puntual que minimiza el error absoluto esperado o MAE. (Para ser más precisos, cualquier mediana puede ser útil, ya que puede no estar definida de manera única; en el ejemplo del ascensor, esto corresponde a tener un número par de ascensores).F^
Y, por supuesto, la mediana puede ser bastante diferente de la expectativa si es asimétrica. Un ejemplo importante es con datos de recuento de bajo volumen , especialmente series temporales intermitentes . De hecho, si tiene un 50% o más de posibilidades de cero ventas, por ejemplo, si las ventas se distribuyen en Poisson con el parámetro , minimizará su error absoluto esperado pronosticando un cero plano, lo cual es poco intuitivo , incluso para series temporales muy intermitentes. Escribí un pequeño artículo sobre esto ( Kolassa, 2016, International Journal of Forecasting ).F^λ ≤ ln2
Por lo tanto, si sospecha que su distribución predictiva es (o debería ser) asimétrica, como en los dos casos anteriores, entonces si desea obtener pronósticos de expectativas imparciales, use el rmse . Si se puede suponer que la distribución es simétrica (típicamente para series de gran volumen), entonces la mediana y la media coinciden, y el uso de mae también lo guiará a pronósticos imparciales, y el MAE es más fácil de entender.
Del mismo modo, minimizar el mape puede conducir a pronósticos sesgados, incluso para distribuciones simétricas. Esta respuesta mía anterior contiene un ejemplo simulado con una serie estrictamente positiva distribuida asimétricamente (distribuida lognormalmente) que puede pronosticarse de manera significativa utilizando tres pronósticos puntuales diferentes, dependiendo de si queremos minimizar el MSE, el MAE o el MAPE.