TL; DR (demasiado largo, no leído):
Estoy trabajando en un problema de predicción de series temporales, que formulo como un problema de regresión usando Deep Learning (keras). Quiero optimizar la correlación de Pearson entre mi predicción y las etiquetas verdaderas. Estoy confundido por el hecho de que usar MSE como proxy en realidad conduce a mejores resultados (en términos de correlación) que usar Pearson como una función de pérdida directamente. ¿Se considera una mala práctica utilizar métricas de correlación como funciones de pérdida para el aprendizaje profundo? Si es así, ¿por qué?
Versión más larga:
Tengo una tarea de predicción de series temporales: observo valores para pasos de tiempo consecutivos y necesitan predecir el valor en el paso de tiempo . Como los valores suelen estar en, Estoy tratando esto como un problema de regresión, que estoy resolviendo usando Deep Learning (keras).
Mi pregunta es sobre la elección de pérdida y métrica.
Mis datos tienen etiquetas verdaderas principalmente con algunos valores extremos Muchos de los valores extremos son erróneos y no quiero cambiar mi aprendizaje para centrarme en hacerlos bien. En otras palabras, quiero poder captar la tendencia general (clasificar correctamente el período de valores positivos versus negativos), y puedo "vivir" con la predicción de 100 en lugar de 200, por ejemplo.
Por esta razón, creo que mi métrica de evaluación debería ser la correlación de Pearson entre los valores predichos y verdaderos.
Ahora, para la función de pérdida: idealmente, si quiero optimizar para una alta correlación de Pearson, tendría sentido usar eso como la función de pérdida, ¿verdad? He probado una arquitectura simple que es mi "modelo de referencia" dos veces: una vez con el uso de Pearson (como se calcula en un mini lote) directamente como mi función de pérdida, y una vez con el uso del MSE común como proxy. En ambos casos, realizo un seguimiento de MSE y Pearson para diferentes épocas y hago "paradas tempranas" en función de un conjunto de validación.
Mis resultados:
- MSE como pérdida: MSE 160, Pearson 0.7
- Pearson como pérdida: MSE 250, Pearson 0.6
Entiendo que el MSE más alto para la pérdida de Pearson es el resultado del hecho de que la optimización para la correlación no tiene escala, por lo que toda la predicción puede estar "desactivada" por un factor que aumente el MSE. Pero, ¿cómo es que el uso de MSE como proxy realmente funciona mejor en términos de la correlación de Pearson? ¿Hay alguna razón relacionada con la optimización de por qué la correlación de Pearson no debe usarse como una función de pérdida? De hecho, veo que en la práctica apenas se usa, pero me gustaría entender la razón detrás de esto.