¿Qué piensa sobre la aplicación de técnicas de aprendizaje automático, como bosques aleatorios o regresión penalizada (con penalización L1 o L2, o una combinación de ambas) en estudios clínicos de muestra pequeña cuando el objetivo es aislar predictores interesantes en un contexto de clasificación? No se trata de la selección del modelo, ni estoy preguntando cómo encontrar estimaciones óptimas de efecto / importancia variable. No planeo hacer una inferencia fuerte, sino solo usar modelos multivariados, evitando así probar cada predictor contra el resultado de interés uno a la vez, y teniendo en cuenta sus interrelaciones.
Me preguntaba si ese enfoque ya se había aplicado en este caso extremo en particular, digamos 20-30 sujetos con datos sobre 10-15 variables categóricas o continuas. No es exactamente el y creo que el problema aquí está relacionado con el número de clases que tratamos de explicar (que a menudo no están bien equilibradas) y el (muy) pequeño n. Soy consciente de la gran cantidad de literatura sobre este tema en el contexto de la bioinformática, pero no encontré ninguna referencia relacionada con estudios biomédicos con fenotipos medidos psicométricamente (por ejemplo, a través de cuestionarios neuropsicológicos).
¿Alguna pista o puntero a documentos relevantes?
Actualizar
Estoy abierto a cualquier otra solución para analizar este tipo de datos, por ejemplo, el algoritmo C4.5 o sus derivados, métodos de reglas de asociación y cualquier técnica de minería de datos para la clasificación supervisada o semi-supervisada.