Estoy tratando de hacer predicciones usando un modelo de bosque aleatorio en R.
Sin embargo, obtengo errores ya que algunos factores tienen valores diferentes en el conjunto de prueba que en el conjunto de entrenamiento. Por ejemplo, un factor Cat_2
tiene valores 34, 68, 76
, etc., en el conjunto de prueba que no aparecen en el conjunto de entrenamiento. Desafortunadamente, no tengo control sobre el conjunto de prueba ... Debo usarlo como está.
Mi única solución fue convertir los factores problemáticos de nuevo a valores numéricos, usando as.numeric()
. Se trabaja , pero no estoy muy satisfecho, ya que estos valores son códigos que no tienen ningún sentido numérico ...
¿Crees que habría otra solución, eliminar los nuevos valores del conjunto de prueba? Pero sin eliminar todos los demás valores de factores (digamos valores 1, 2, 14, 32
, etc.) que se encuentran tanto en el entrenamiento como en la prueba, y que contienen información potencialmente útil para las predicciones.