¿Cuál es la selección de variables / características que prefiere para la clasificación binaria cuando hay muchas más variables / características que observaciones en el conjunto de aprendizaje? El objetivo aquí es discutir cuál es el procedimiento de selección de características que reduce mejor el error de clasificación.
Podemos corregir las anotaciones para mantener la coherencia: para , deje que sea el conjunto de observaciones de aprendizaje del grupo . Entonces es el tamaño del conjunto de aprendizaje. Establecemos para que sea el número de características (es decir, la dimensión del espacio de características). Supongamos que x [i] denota la coordenada i -ésima de x \ in \ mathbb {R} ^ p .
Proporcione referencias completas si no puede dar los detalles.
EDITAR (actualizado continuamente): procedimientos propuestos en las respuestas a continuación
- Selección codiciosa hacia adelante Procedimiento de selección variable para clasificación binaria
- Procedimiento de selección de variables de eliminación hacia atrás para clasificación binaria
- Escaneo de metrópolis / MCMC Procedimiento de selección variable para clasificación binaria
- regresión logística penalizada Procedimiento de selección variable para clasificación binaria
Como esta es una wiki comunitaria, puede haber más discusión y actualización.
Tengo un comentario: en cierto sentido, todos dan un procedimiento que permite ordenar las variables pero no la selección de variables (son bastante evasivos sobre cómo seleccionar el número de características, supongo que todos usan la validación cruzada). ¿Pueden mejorar? Las respuestas en esta dirección? (como se trata de una wiki comunitaria, no necesita ser el redactor de respuestas para agregar información sobre cómo seleccionar el número de variables. He abierto una pregunta en esta dirección aquí Validación cruzada en una dimensión muy alta (para seleccionar el número de variables utilizadas en clasificación dimensional muy alta) )