Tengo una pregunta práctica sobre la ingeniería de características ... digamos que quiero predecir los precios de la vivienda mediante el uso de regresión logística y utilicé un montón de características, incluido el código postal. Luego, al verificar la importancia de la función, me doy cuenta de que zip es una función bastante buena, así que decidí agregar algunas funciones más basadas en zip: por ejemplo, voy a la oficina del censo y obtengo el ingreso promedio, la población, el número de escuelas y el número de hospitales de cada zip. Con estas cuatro nuevas características, encuentro que el rendimiento del modelo es mejor ahora. Así que agrego aún más funciones relacionadas con zip ... Y este ciclo sigue y sigue. Eventualmente, el modelo estará dominado por estas características relacionadas con zip, ¿verdad?
Mis preguntas:
- ¿Tiene sentido hacer esto en primer lugar?
- En caso afirmativo, ¿cómo sé cuándo es un buen momento para detener este ciclo?
- ¿Si no, porque no?