La idea básica es hacer un reemplazo rápido de los datos faltantes y luego mejorar iterativamente la imputación faltante utilizando la proximidad. Para trabajar con datos sin etiquetar, simplemente replique los datos con todas las etiquetas y luego trátelos como datos etiquetados.
La fracción de árboles para la cual un par de observaciones comparten un nodo terminal da la matriz de proximidad, y de manera explícita usa la etiqueta de clase.
Conjunto de entrenamiento:
- Reemplace los valores faltantes por el valor promedio.
Repita hasta que esté satisfecho:
a. Usando valores imputados calculados hasta ahora, entrene un bosque aleatorio.
si. Calcule la matriz de proximidad.
C. Usando la proximidad como el peso, impute los valores perdidos como el promedio ponderado de los valores no perdidos.
Equipo de prueba:
- Si existen etiquetas, use la imputación derivada de los datos de prueba.
- Si los datos no están etiquetados, replique el conjunto de prueba con una copia para cada etiqueta de clase y proceda como con los datos etiquetados.
Aquí, el promedio (ponderado) se refiere a la mediana (ponderada) para las variables numéricas y el modo (ponderado) para las variables categóricas. Se recomiendan 4-6 iteraciones en las referencias.
Documentación R (pdf) , manual de Breiman v4.0 (pdf) , página RF de Breiman