Estaba leyendo los modelos lineales de libros de texto de Faraway con R (primera edición) el fin de semana pasado. Faraway tenía un capítulo llamado "Estrategia estadística e incertidumbre modelo". Describió (página 158) que genera artificialmente algunos datos usando un modelo muy complicado, a continuación, preguntó a sus estudiantes para modelar los datos y comparar los resultados predichos de los estudiantes frente a los resultados de lectura. Desafortunadamente, la mayoría de los estudiantes sobreajustó los datos de las pruebas y dio valores predichos totalmente fuera de lugar. Para explicar este fenómeno, escribió algo muy impresionante para mí:
"La razón por la que los modelos eran tan diferentes fue porque los estudiantes aplicaron los diversos métodos en diferentes órdenes. Algunos hicieron una selección variable antes de la transformación y otros, al revés. Algunos repitieron un método después de cambiar el modelo y otros no. Revisé las estrategias que varios de los estudiantes usaron y no pudieron encontrar nada claramente incorrecto con lo que habían hecho. Un estudiante cometió un error al calcular sus valores pronosticados, pero obviamente no había nada malo en el resto. El desempeño en esta tarea no mostró cualquier relación con eso en los exámenes " .
Me informaron que la precisión de predicción del modelo es el "criterio de oro" para que podamos seleccionar el mejor rendimiento del modelo. Si no me equivoco, este es también el método popular utilizado en las competiciones de Kaggle. Pero aquí Faraway observó algo de una naturaleza diferente, que el rendimiento de predicción del modelo no podría tener nada que vercon la habilidad del estadístico involucrado. En otras palabras, si podemos construir el mejor modelo en términos de poder predictivo no está realmente determinado por la experiencia que tengamos. En cambio, está determinado por una gran "incertidumbre modelo" (¿suerte ciega?). Mi pregunta es: ¿esto también es cierto en el análisis de datos de la vida real? ¿O me confundieron con algo muy básico? Porque si esto es cierto, entonces la implicación para el análisis de datos reales es inmensa: sin conocer el "modelo real" detrás de los datos, no hay una diferencia esencial entre el trabajo realizado por estadísticos experimentados / inexpertos: ambos son solo conjeturas salvajes frente a Los datos de entrenamiento disponibles.