La ingeniería de características es a menudo un componente importante para el aprendizaje automático (se utilizó mucho para ganar la Copa KDD en 2010 ). Sin embargo, creo que la mayoría de las técnicas de ingeniería de características
- destruir cualquier significado intuitivo de las características subyacentes o
- son muy específicos para un dominio particular o incluso tipos particulares de características.
Un ejemplo clásico de lo primero sería el análisis de componentes principales. Me parece que cualquier conocimiento que un experto en la materia tenga sobre las características se destruiría al convertir esas características en componentes principales.
Compare eso con una técnica simple de convertir una fecha en características para "día del mes" y "día de la semana". El significado subyacente aún se conserva en las nuevas características, pero obviamente esta técnica en particular solo se aplica a fechas y no a características arbitrarias.
¿Existe algún cuerpo estándar de técnicas de ingeniería de características que no destruyan el significado de las características subyacentes y sean aplicables a dominios arbitrarios (o al menos a una amplia variedad de dominios)?