¿Es la predicción el "criterio de oro" para juzgar la capacidad de los estadísticos?

Estaba leyendo los modelos lineales de libros de texto de Faraway con R (primera edición) el fin de semana pasado. Faraway tenía un capítulo llamado "Estrategia estadística e incertidumbre modelo". Describió (página 158) que genera artificialmente algunos datos usando un modelo muy complicado, a continuación, preguntó a sus estudiantes para modelar los datos y comparar los resultados predichos de los estudiantes frente a los resultados de lectura. Desafortunadamente, la mayoría de los estudiantes sobreajustó los datos de las pruebas y dio valores predichos totalmente fuera de lugar. Para explicar este fenómeno, escribió algo muy impresionante para mí:

"La razón por la que los modelos eran tan diferentes fue porque los estudiantes aplicaron los diversos métodos en diferentes órdenes. Algunos hicieron una selección variable antes de la transformación y otros, al revés. Algunos repitieron un método después de cambiar el modelo y otros no. Revisé las estrategias que varios de los estudiantes usaron y no pudieron encontrar nada claramente incorrecto con lo que habían hecho. Un estudiante cometió un error al calcular sus valores pronosticados, pero obviamente no había nada malo en el resto. El desempeño en esta tarea no mostró cualquier relación con eso en los exámenes " .

Me informaron que la precisión de predicción del modelo es el "criterio de oro" para que podamos seleccionar el mejor rendimiento del modelo. Si no me equivoco, este es también el método popular utilizado en las competiciones de Kaggle. Pero aquí Faraway observó algo de una naturaleza diferente, que el rendimiento de predicción del modelo no podría tener nada que vercon la habilidad del estadístico involucrado. En otras palabras, si podemos construir el mejor modelo en términos de poder predictivo no está realmente determinado por la experiencia que tengamos. En cambio, está determinado por una gran "incertidumbre modelo" (¿suerte ciega?). Mi pregunta es: ¿esto también es cierto en el análisis de datos de la vida real? ¿O me confundieron con algo muy básico? Porque si esto es cierto, entonces la implicación para el análisis de datos reales es inmensa: sin conocer el "modelo real" detrás de los datos, no hay una diferencia esencial entre el trabajo realizado por estadísticos experimentados / inexpertos: ambos son solo conjeturas salvajes frente a Los datos de entrenamiento disponibles.

predictive-models modeling interpretation

— Bombyx mori
fuente

+1 buena pregunta. Para ofrecer otro ángulo, digamos que uno de los analistas conoce el modo verdadero, ¡entonces sus predicciones también pueden ser malas! Entonces, incluso con conocer el modelo real, verías esto. Puede ser importante la observación de Haggerty y Srivinasans de 1991 en Psychometrika de que "la práctica [...] de concluir que un modelo con mayor precisión predictiva es" más cierto "no es una inferencia válida".

— Momo

Todavía no he mirado el libro, pero "selección variable" y "transformación" ya suenan campanas de advertencia. Consulte Algoritmos para la selección automática de modelos y la naturaleza de la relación entre predictores y dependientes en regresión . Tampoco combinaría el rendimiento del examen de los estudiantes de Estadística con la capacidad de trabajo real de los estadísticos.

— Scortchi - Restablece a Monica

Esta información proporcionada por Faraway parece terriblemente anecdótica para ser utilizada como la base de un principio general radical sobre el campo de las estadísticas. No quisiera construir un modelo sobre modelado predictivo basado en ejemplos no reproducibles. También es posible que fueran, ingeniosamente o no, escogidos.

— rolando2

Una conclusión válida desde el punto de vista lógico que puede derivarse de esta anécdota es que ninguno de los estudiantes de Faraway había adquirido (todavía) las habilidades necesarias para desempeñarse bien en su prueba de predicción. Es difícil establecer una conexión entre ese resultado y sus especulaciones sobre el desempeño de los estadísticos experimentados.

— whuber

@whuber: No pienso de esa manera. Estoy de acuerdo en que 28 estudiantes son un poco pequeños, pero creo que esta observación real tiene algunas implicaciones serias. Si Faraway hizo el modelo real, y se fue con el trabajo de varios estudiantes, no podría encontrar ningún error grave, sin embargo, las predicciones están muy lejos de lo que deberían ser. Entonces esto dice algo acerca de la 'incertidumbre del modelo' involucrada, que al menos necesita el trabajo realizado por un analista separado para comparar las diferencias, no importa cuán 'experimentado' sea el analista original. Creo que esto es bastante alarmante para mí.

— Bombyx mori

Respuestas:

Le pregunté al profesor de mi departamento sobre esto. Dijo francamente que no estaba sorprendido por eso en absoluto. Sugirió la siguiente forma de ver esto: lo que hizo Faraway fue solo un experimento de una sola vez, y no es sorprendente que los resultados parecieran no tener correlación con las calificaciones finales. Pero si Faraway repite su 'experimento' 100 veces con el mismo grupo de estudiantes, está seguro de que los estudiantes aprendieron que las estadísticas funcionarían mejor, similar al intervalo de confianza. Por lo tanto, en su opinión, la experiencia es importante, es solo un experimento social que una vez no pudo mostrar debido a la incertidumbre del modelo.

— Bombyx mori
fuente

Esa excusa me parece graciosa. Creo que esta es la razón por la cual las estadísticas están siendo reemplazadas por (o renombradas como) "ciencia de datos". La gente está comenzando a darse cuenta de que la estadística como se enseña en las universidades no es muy buena para predecir, y los modelos sin poder predictivo son inútiles.

— Flounderer

@Flounderer: Creo que esto no es realmente una excusa, y lo que escribiste podría no estar muy bien conectado con este caso. Primero, la mayoría de las veces en la vida real uno tiene tanto un conjunto de pruebas como un conjunto de entrenamiento, a diferencia del caso de Faraway, solo hay un conjunto de entrenamiento disponible. En segundo lugar, si observa el modelo de Faraway, es altamente no lineal, de modo que los métodos de regresión no funcionan muy bien. Por lo tanto, todos los modelos lineales son solo conjeturas salvajes. La moraleja del experimento es que "todos los modelos están equivocados" en lugar de "las estadísticas como se enseñan en las universidades no son muy buenas para la predicción".

— Bombyx mori

@Flounderer: En otras palabras, creo que si yo (o alguien más en el foro) estoy en la posición de estudiante lejano hace veinte años frente a este extraño conjunto de entrenamiento, es poco probable que lo hagamos mejor usando solo modelos lineales. No creo que esto sea algo relacionado con la "estadística como se enseña en las universidades".

— Bombyx mori

Los modelos de los estudiantes estaban casi todos sobreajustados. Con n puntos de datos, siempre se puede ajustar un polinomio perfecto de orden n-1. Tal modelo está atrasado sin dejar nada al error aleatorio. Parece que los estudiantes han cometido errores de sobreajuste similares, pero presumiblemente con diferentes funciones.

El sobreajuste es un error que solo deben cometer los estudiantes. Y esto sugiere que la experiencia y la educación son calificaciones necesarias para modelar.

— Alison Weir
fuente

"El sobreajuste es un error que solo deben cometer los estudiantes" es un estándar bastante alto. Modelar es difícil. ¿Quizás algo como "El sobreajuste es algo que los modeladores aprenden a reconocer y evitar a través de la experiencia y la educación" estaría más cerca de la verdad?

— Matthew Drury