¿Cómo se puede seleccionar el número adecuado de parámetros para que un algoritmo genético modele un sistema dado?
Por ejemplo, supongamos que desea optimizar la producción de automóviles, y tiene 1,000 mediciones de eficiencia por hora en diversas tareas para cada uno de 1,000 empleados diferentes. Entonces, tienes 1,000,000 de puntos de datos. Es probable que la mayoría de estos se correlacionen débilmente con la eficiencia general de su fábrica, pero no tan débilmente que pueda decir que son irrelevantes con la confianza estadística. ¿Cómo hace para elegir entradas para su AG de modo que no tenga más de 1,000,000 de grados de libertad, lo que resulta en una convergencia muy lenta o ninguna convergencia?
Específicamente, ¿cuáles son los algoritmos que uno podría usar para preseleccionar o eliminar selectivamente las características?
Un enfoque que he utilizado en este escenario es evolucionar la selección de parámetros en sí, por lo que podría tener padres como {a,b,c}
, {b,d,e,q,x,y,z}
etc. Luego mutaría a los niños para agregar o quitar funciones. Esto funciona bien para algunas docenas de funciones. Pero el problema es que es ineficiente si hay una gran cantidad de grados de libertad. En ese caso, está buscando 10^n
combinaciones (en el ejemplo anterior 10^1,000,000
), lo que hace que el filtrado previo de las características sea crítico para obtener cualquier tipo de rendimiento útil.