Mi pregunta es sobre la clasificación binaria, por ejemplo, separar a los buenos clientes de los malos clientes, pero no la regresión o la clasificación no binaria. En este contexto, un bosque aleatorio es un conjunto de árboles de clasificación. Para cada observación, cada árbol vota un "sí" o "no", y el voto promedio de todos los árboles es la probabilidad final del bosque.
Mi pregunta es sobre la modificación del comportamiento de los árboles subyacentes: ¿Cómo podemos modificar la función randomForest (del paquete randomForest de R) para que cada árbol vote un decimal en lugar de un binario sí / no. Para comprender mejor lo que quiero decir con decimal, pensemos en cómo funcionan los árboles de decisión.
Un árbol de decisión completamente desarrollado tiene 1 instancia buena o 1 mala en sus nodos terminales. Suponga que limito el tamaño del nodo terminal a 100. Entonces los nodos terminales se verán así:
Nodo1 = 80 malo, 20 bueno
Nodo2 = 51 malo, 49 bueno
Nodo3 = 10 malo, 90 bueno
Tenga en cuenta que, aunque el Nodo1 y el Nodo2 votan "malo", su "fuerza de maldad" es muy diferente. Eso es lo que busco. En lugar de hacer que produzcan 1 o 0 (que es el comportamiento predeterminado), ¿se puede modificar el paquete R para que vote 80/100, 51/100, 10/100, etc.?