He leído las siguientes publicaciones que respondieron a la pregunta que iba a hacer:
Utilice el modelo de bosque aleatorio para hacer predicciones a partir de datos del sensor
Árbol de decisión para la predicción de salida
Esto es lo que he hecho hasta ahora: comparé la regresión logística con los bosques aleatorios y la RF superó a la logística. Ahora, los investigadores médicos con los que trabajo quieren convertir mis resultados de RF en una herramienta de diagnóstico médico. Por ejemplo:
Si usted es un hombre asiático entre 25 y 35 años, tiene vitamina D por debajo de xx y presión arterial por encima de xx, tiene un 76% de posibilidades de desarrollar la enfermedad xxx.
Sin embargo, RF no se presta a ecuaciones matemáticas simples (ver enlaces anteriores). Entonces, esta es mi pregunta: ¿qué ideas tienen para usar RF para desarrollar una herramienta de diagnóstico (sin tener que exportar cientos de árboles)?
Estas son algunas de mis ideas:
- Use RF para la selección de variables, luego use Logística (usando todas las interacciones posibles) para hacer la ecuación de diagnóstico.
- De alguna manera, agregue el bosque de RF en un "mega árbol", que de alguna manera promedia el nodo se divide entre los árboles.
- Similar a # 2 y # 1, use RF para seleccionar variables (digamos m variables en total), luego construya cientos de árboles de clasificación, todos los cuales usan cada variable m, luego elija el mejor árbol individual.
¿Alguna otra idea? Además, hacer el n. ° 1 es fácil, pero ¿alguna idea sobre cómo implementar el n. ° 2 y el n. ° 3?