Creo que valdría la pena probar Random Forests ( randomForest ); se proporcionaron algunas referencias en respuesta a preguntas relacionadas: Selección de características para el modelo "final" cuando se realiza la validación cruzada en el aprendizaje automático ; ¿Pueden los modelos CART hacerse robustos? . El refuerzo / embolsado los hace más estables que un solo CARRITO que se sabe que es muy sensible a pequeñas perturbaciones. Algunos autores argumentaron que funcionaba tan bien como SVM o máquinas de refuerzo de gradiente penalizadas (ver, por ejemplo, Cutler et al., 2009). Creo que ciertamente superan a las NN.
Boulesteix y Strobl proporcionan una buena visión general de varios clasificadores en la selección de clasificadores óptimos y sesgo negativo en la estimación de la tasa de error: un estudio empírico sobre predicción de alta dimensión (BMC MRM 2009 9: 85). Escuché de otro buen estudio en la IV reunión de EAM , que debería estar bajo revisión en Estadísticas en Medicina ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. ¿Los bosques aleatorios superan a las redes neuronales, admiten máquinas de vectores y clasificadores de análisis discriminante? Un estudio de caso sobre la evolución a la demencia en pacientes de edad avanzada con quejas cognitivas
También me gusta el paquete caret : está bien documentado y permite comparar la precisión predictiva de diferentes clasificadores en el mismo conjunto de datos. Se encarga de gestionar muestras de entrenamiento / prueba, precisión informática, etc. en pocas funciones fáciles de usar.
El paquete glmnet , de Friedman y col., Implementa GLM penalizado (vea la revisión en el Journal of Statistical Software ), por lo que permanece en un marco de modelado conocido.
De lo contrario, también puede buscar clasificadores basados en reglas de asociación (consulte la Vista de tareas CRAN sobre Aprendizaje automático o los 10 algoritmos principales en la minería de datos para obtener una introducción suave a algunos de ellos).
Me gustaría mencionar otro enfoque interesante que planeo volver a implementar en R (en realidad, es el código Matlab) que es el Análisis de Correspondencia Discriminante de Hervé Abdi. Aunque inicialmente se desarrolló para hacer frente a estudios de muestras pequeñas con muchas variables explicativas (finalmente agrupadas en bloques coherentes), parece combinar eficientemente la DA clásica con técnicas de reducción de datos.
Referencias
- Cutler, A., Cutler, DR, y Stevens, JR (2009). Métodos basados en árboles , en Análisis de datos de alta dimensión en la investigación del cáncer , Li, X. y Xu, R. (eds.), Pp. 83-101, Springer.
- Saeys, Y., Inza, I. y Larrañaga, P. (2007). Una revisión de las técnicas de selección de características en bioinformática . Bioinformática, 23 (19): 2507-2517.