Intento predecir un puntaje de equilibrio y probé varios métodos de regresión diferentes. Una cosa que noté es que los valores predichos parecen tener algún tipo de límite superior. Es decir, el saldo real está en , pero mis predicciones alcanzan alrededor de 0.8 . La siguiente gráfica muestra el saldo real versus el saldo predicho (predicho con regresión lineal):
Y aquí hay dos diagramas de distribución de los mismos datos:
Como mis predictores están muy sesgados (datos de usuario con distribución de la ley de potencia), apliqué una transformación de Box-Cox, que cambia los resultados a lo siguiente:
Aunque cambia la distribución de las predicciones, todavía existe ese límite superior. Entonces mis preguntas son:
- ¿Cuáles son las posibles razones de tales límites superiores en los resultados de predicción?
- ¿Cómo puedo arreglar las predicciones para que se correspondan con la distribución de los valores reales?
Bonificación: Dado que la distribución después de la transformación de Box-Cox parece seguir las distribuciones de los predictores transformados, ¿es posible que esto esté directamente relacionado? Si es así, ¿hay alguna transformación que pueda aplicar para ajustar la distribución a los valores reales?
Editar: utilicé una regresión lineal simple con 5 predictores.