¿Existe una implementación de bosque aleatorio R que funcione bien con datos muy escasos? Tengo miles o millones de variables de entrada booleanas, pero solo cientos más o menos serán VERDADERAS para cualquier ejemplo dado.
Soy relativamente nuevo en R y noté que hay un paquete 'Matrix' para tratar con datos escasos, pero el paquete estándar 'randomForest' no parece reconocer este tipo de datos. Si es importante, los datos de entrada se producirán fuera de R y se importarán.
¿Algún consejo? También puedo considerar el uso de Weka, Mahout u otros paquetes.