[editado 21.7.15 8:31 AM CEST]
Supongo que usaste RF para la clasificación. Porque en este caso, el algoritmo produce árboles completamente desarrollados con nodos terminales puros de una sola clase objetivo.
predict(model, data=X_train)
Esta línea de codificación es como un perro persiguiendo [~ 66% de] su propia cola. La predicción de cualquier muestra de entrenamiento es la clase de la muestra de entrenamiento en sí. Para la regresión, la RF se detiene si el nodo tiene 5 o menos muestras o si el nodo es puro. Aquí el error de predicción será pequeño pero no 0%.
En el aprendizaje automático, a menudo trabajamos con grandes espacios de hipótesis. Esto significa que siempre habrá muchas hipótesis / explicaciones / modelos aún no falsificados para la estructura de datos de nuestro conjunto de entrenamiento. En la estadística clásica, el espacio de hipótesis a menudo es pequeño y, por lo tanto, el ajuste directo del modelo es informativo de acuerdo con alguna teoría de probabilidad supuesta. En el aprendizaje automático, la falta directa de ajuste se relaciona con el sesgo del modelo. El sesgo es la "inflexibilidad" del modelo. No es aside todos modos, proporciona una aproximación del poder de generalización (la capacidad de predecir nuevos eventos). Para los modelos algorítmicos, la validación cruzada es la mejor herramienta para aproximar el poder de generalización, ya que no se formula ninguna teoría. Sin embargo, si los supuestos del modelo de muestreo independiente fallan, el modelo puede ser inútil de todos modos, incluso cuando una validación cruzada bien realizada sugiera lo contrario. Al final, la prueba más fuerte es predecir satisfactoriamente un número de conjuntos de pruebas externas de varios orígenes.
Regresar al CV: El desempaquetado suele ser un tipo de CV aceptado. Personalmente, afirmaría que OOB-CV proporciona resultados similares a 5 veces CV, pero esto es una molestia muy pequeña. Si para comparar digamos RF a SVM, entonces OOB-CV no es útil, ya que normalmente evitaríamos empacar SVM. En cambio, tanto SVM como RF se integrarían en el mismo esquema de validación cruzada, por ejemplo, 10 veces 10 repeticiones con particiones coincidentes para cada repetición. Cualquier paso de ingeniería de características a menudo también sería necesario para la validación cruzada. Si para mantener las cosas limpias, toda la línea de datos podría integrarse en el CV.
Si ajusta su modelo con su conjunto de pruebas (o validación cruzada), nuevamente está inflando su espacio de hipótesis y el rendimiento de predicción validado probablemente sea demasiado optimista. En cambio, necesitará un conjunto de calibración (o bucle CV de calibración) para ajustar y un conjunto de validación de prueba (o bucle CV de validación) para evaluar su modelo óptimo final.
En el sentido extremo, su puntaje de validación solo será imparcial si nunca actúa sobre este resultado, cuando lo vea. Esta es la paradoja de la validación, ya que por qué obtendríamos un conocimiento que solo es cierto si no se actúa en consecuencia. En la práctica, la comunidad acepta voluntariamente algún sesgo de publicación, donde aquellos investigadores que obtuvieron una validación demasiado optimista al azar tienen más probabilidades de publicar, que aquellos que desafortunadamente tienen una validación demasiado pesimista. Por eso a veces por qué no se pueden reproducir otros modelos.