Confusión relacionada con la normalización de datos.


9

Estoy tratando de aprender un modelo de regresión lineal. Sin embargo, tengo cierta confusión relacionada con la normalización de los datos. He normalizado las características / predictores a cero media y varianza unitaria. ¿Debo hacer lo mismo para el objetivo? Si es así, ¿por qué?


1
¿Por qué normalizaste las características / predictores?
Peter Flom - Restablece a Monica

44
Por cierto, creo que 'estandarizar' es un mejor término para eso.
Scortchi - Restablece a Monica

Respuestas:


6

Normalizar el objetivo en regresión lineal no importa. En regresión lineal, su ajuste tendrá la forma Cuando los predictores están centrados, el término constante siempre será la media de . Entonces, si centra el antes de ejecutar una regresión, obtendrá , pero todos los demás coeficientes permanecerán sin cambios.xia0yiyia0=0

y^i=a0+axi.
xia0yiyia0=0

(Dicho esto, normalizar los predictores, como lo está haciendo actualmente, es una buena idea).


1
¿Por qué normalizar los predictores es una buena idea?
Scortchi - Restablece a Monica

@Stefan. Sí, cuando centro los predictores, obtengo el término constante como la media de y. Pero no entendí cómo es que se convierte en el medio. ¿Puedes decirme las matemáticas detrás de esto? a0
user34790

2
@Scortchi No es necesario normalizar los predictores, pero puede facilitar la interpretación de los coeficientes de la regresión: después de la normalización, los coeficientes grandes corresponden a predictores importantes. Además, sin normalización, los coeficientes de los términos de interacción pueden ser muy engañosos. Dicho esto, la normalización no afectará las predicciones que obtiene de su modelo, por lo que la normalización solo importa si tiene la intención de interpretar los coeficientes en la regresión.
Stefan Wager

1
@ user34790 Las matemáticas se resuelven en pmean.com/10/LeastSquares.html
Stefan Wager

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.