Mi pregunta es si necesitamos estandarizar el conjunto de datos para asegurarnos de que todas las variables tengan la misma escala, entre [0,1], antes de ajustar la regresión logística. La formula es:
Mi conjunto de datos tiene 2 variables, describen lo mismo para dos canales, pero el volumen es diferente. Digamos que es el número de visitas de clientes en dos tiendas, y aquí está si un cliente compra. Porque un cliente puede visitar ambas tiendas, o dos veces la primera tienda, una vez la segunda tienda antes de realizar una compra. pero el número total de visitas de clientes para la primera tienda es 10 veces mayor que la segunda tienda. Cuando me ajusto a esta regresión logística, sin estandarización coef(store1)=37, coef(store2)=13
,; si estandarizo los datos, entonces coef(store1)=133, coef(store2)=11
. Algo como esto. ¿Qué enfoque tiene más sentido?
¿Qué sucede si estoy ajustando un modelo de árbol de decisión? Sé que los modelos de estructura de árbol no necesitan estandarización ya que el modelo en sí lo ajustará de alguna manera. Pero comprobando con todos ustedes.
C
cambios óptimos en el factor de regularización . Por lo tanto, debe elegir C
después de estandarizar los datos.