¿Es necesario escalar el valor objetivo además de las funciones de escala para el análisis de regresión?


52

Estoy construyendo modelos de regresión. Como paso de preprocesamiento, escalo los valores de mis características para que tengan una media 0 y una desviación estándar 1. ¿Es necesario normalizar también los valores objetivo?

Respuestas:


50

Primero analicemos por qué se realiza el escalado de características. El escalado de características mejora la convergencia de los algoritmos de descenso más pronunciados, que no poseen la propiedad de invariancia de escala.

En los ejemplos de entrenamiento de descenso de gradiente estocástico, informe las actualizaciones de peso de forma iterativa de esta manera,

wt+1=wtγw(fw(x),y)

Donde son los pesos, es un tamaño de pasos, es el gradiente de los pesos wrt, es una función de pérdida, es la función parametrizada por , es un ejemplo de entrenamiento e es la respuesta / etiqueta.γ wf w w x ywγwfwwxy

Compare las siguientes funciones convexas, que representan la escala adecuada y la escala incorrecta.

Escalado de características

Un paso a través de una actualización de peso de tamaño producirá una reducción mucho mejor en el error en el caso correctamente escalado que el caso incorrectamente escalado. A continuación se muestra la dirección de de longitud .w( f w ( x ) , y ) γγw(fw(x),y)γ

Actualización de gradiente

La normalización de la salida no afectará la forma de , por lo que generalmente no es necesario.f

La única situación que puedo imaginar es que el escalado de las salidas tiene un impacto, es si su variable de respuesta es muy grande y / o está usando variables f32 (que es común con el álgebra lineal de GPU). En este caso, es posible obtener un desbordamiento de coma flotante de un elemento de los pesos. El síntoma es un valor Inf o se ajustará a la otra representación extrema.


Pero si no escalamos las entradas y aplicamos Descenso de degradado, para resolver theta en algo como y = theta0 + theta1 * x1 + theta2 * x2, si estamos actualizando los valores de X1 y X2 (escalando) mientras mantenemos Y (salida esperada) lo mismo, ¿no serán incorrectas las predicciones resultantes para theta1, theta2 cuando las apliquemos a la ecuación original?
Prashant

14

En general, no es necesario. El escalado de entradas ayuda a evitar la situación, cuando una o varias características dominan otras en magnitud, como resultado, el modelo apenas capta la contribución de las variables de menor escala, incluso si son fuertes. Pero si escala el objetivo, su error cuadrático medio se escala automáticamente. MSE> 1 automáticamente significa que lo estás haciendo peor que una predicción constante (ingenua).


7

No, las transformaciones lineales de la respuesta nunca son necesarias. Sin embargo, pueden ser útiles para ayudar en la interpretación de su modelo. Por ejemplo, si su respuesta se da en metros, pero generalmente es muy pequeña, puede ser útil cambiar la escala a, por ejemplo, milímetros. Tenga en cuenta también que centrar y / o escalar las entradas puede ser útil por la misma razón. Por ejemplo, puede interpretar aproximadamente un coeficiente como el efecto sobre el cambio de respuesta por unidad en el predictor cuando todos los demás predictores se establecen en 0 . Pero 0 a menudo no será un valor válido o interesante para esas variables. Centrar las entradas le permite interpretar el coeficiente como el efecto por unidad de cambio cuando los otros predictores asumen sus valores promedio.

Otras transformaciones (es decir, log o raíz cuadrada) pueden ser útiles si la respuesta no es lineal en los predictores en la escala original. Si este es el caso, puede leer sobre modelos lineales generalizados para ver si son adecuados para usted.


1

Que no afecta descenso de gradiente en una mala manera. verifique la fórmula para el descenso de gradiente:

xn+1=xnγΔF(xn)

Digamos que es una característica que es 1000 veces mayor quex2x1

para tenemos . La forma óptima de alcanzar (0,0), que es el óptimo global, es moverse a través de la diagonal, pero si una de las características domina a la otra en términos de escala, eso no sucederá.F(x)=x2ΔF(x)=2x

Para ilustrar: Si realiza la transformación , suponga una tasa de aprendizaje uniforme para ambas coordenadas y calcule el gradiente y luegoLa forma funcional es la misma, pero la tasa de aprendizaje para la segunda coordenada debe ajustarse a 1/1000 de la de la primera coordenada para que coincida. Si no, las coordenadas dos dominarán y el vector apuntará más hacia esa dirección.z=(x1,1000x1)γ

zn+1=znγΔF(z1,z2).
Δ

Como resultado, sesga el delta para que apunte solo en esa dirección y hace que la convergencia sea más lenta.


0

, necesita escalar la variable objetivo. Citaré esta referencia :

Una variable objetivo con una gran extensión de valores, a su vez, puede dar lugar a grandes valores de gradiente de error que provoquen cambios drásticos en los valores de peso, haciendo que el proceso de aprendizaje sea inestable.

En la referencia, también hay una demostración del código donde los pesos del modelo explotaron durante el entrenamiento debido a los errores muy grandes y, a su vez, los gradientes de error calculados para las actualizaciones de peso también explotaron. En resumen, si no escala los datos y tiene valores muy grandes, asegúrese de usar valores de tasa de aprendizaje muy pequeños. Esto también fue mencionado por @drSpacy.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.