Estoy usando la regresión vectorial de soporte para modelar algunos datos bastante sesgados (con curtosis alta). Intenté modelar los datos directamente, pero estoy obteniendo predicciones erróneas, creo que principalmente debido a la distribución de los datos, que está sesgada con colas muy gruesas. Estoy bastante seguro de que algunos valores atípicos (que son puntos de datos legítimos) están afectando el entrenamiento SVR, y tal vez también en la validación cruzada, donde en este momento estoy optimizando los hiperparámetros al minimizar el error al cuadrado medio.
Intenté escalar mis datos antes de aplicar SVR (por ejemplo, usar una función sqrt para reducir los valores atípicos), así como usar una función de minimización de hiperparámetros diferente (por ejemplo, error absoluto), que parece dar mejores resultados, pero aún no es muy bueno. Tengo curiosidad por saber si alguien ha encontrado problemas similares y cómo lo abordaron. Cualquier sugerencia y / o métodos alternativos son bienvenidos.