¿Cuál es el significado de "Todos los modelos están mal, pero algunos son útiles"


76

"Básicamente, todos los modelos están equivocados, pero algunos son útiles".

--- Caja, George EP; Norman R. Draper (1987). Construcción de modelos empíricos y superficies de respuesta, p. 424, Wiley. ISBN 0471810339.

¿Cuál es exactamente el significado de la frase anterior?


13
En el mismo libro se mencionó anteriormente: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Tal vez esto sea más útil.
usεr11852 dice Reinstate Monic

Respuestas:


101

Creo que su significado se analiza mejor al verlo en dos partes:

"Todos los modelos están equivocados", es decir, todos los modelos están equivocados porque es una simplificación de la realidad. Algunos modelos, especialmente en las ciencias "duras", solo están un poco equivocados. Ignoran cosas como la fricción o el efecto gravitacional de los cuerpos pequeños. Otros modelos están muy equivocados: ignoran cosas más grandes. En las ciencias sociales, ignoramos mucho.

"Pero algunos son útiles": las simplificaciones de la realidad pueden ser bastante útiles. Pueden ayudarnos a explicar, predecir y comprender el universo y todos sus diversos componentes.

¡Esto no es solo cierto en las estadísticas! Los mapas son un tipo de modelo; están equivocados. Pero los buenos mapas son muy útiles. Abundan los ejemplos de otros modelos útiles pero incorrectos.


20
+1 Porque me gusta la analogía de los mapas. ¡Lo usaré en el futuro!
usεr11852 dice Reinstate Monic

44
Muchos modelos en las ciencias "duras" también están bastante lejos (ayer asistí a un seminario donde las mediciones en las que el modelo estaba dentro de la barra de error, pero la barra de error tenía dos órdenes de magnitud).
gerrit

77
+1. Creo que su oración clave es "cada modelo está equivocado porque es una simplificación de la realidad". La gente a menudo olvida esto, por ejemplo en críticas ingenuas de la economía (tengo mis propias críticas, pero necesitan ser más sofisticadas que simplemente que "la realidad es más compleja que su modelo"). Si no lo simplificamos, tienes una realidad cruda, que es demasiado compleja para que la comprendamos. Así que tenemos que simplificarlo para obtener alguna idea.
Peter Ellis

13
La fantasía de un mapa perfecto a escala 1: 1 ha sido utilizada por muchos autores, incluidos Lewis Carroll, Jorge Luis Borges y Umberto Eco. En realidad, sería inútil porque necesariamente sería complicado como el área que mapea y no sería más fácil de entender (sin mencionar la incomodidad de desplegarlo y exponerlo para leer).
Nick Cox

2
Tal vez también pueda agregar que un modelo tiene que estar un poco equivocado, porque de lo contrario no se generalizaría y, por lo tanto, no sería aplicable en otros lugares. Hay algunas respuestas que dicen esto más abajo. Pero ahora hay demasiadas respuestas para leerlas todas.
ziggystar

9

Significa que se pueden proporcionar ideas útiles a partir de modelos que no son una representación perfecta de los fenómenos que modelan.

Un modelo estadístico es una descripción de un sistema que utiliza conceptos matemáticos. Como tal, en muchos casos agrega una cierta capa de abstracción para facilitar su procedimiento inferencial (por ejemplo, normalidad de errores de medición, simetría compuesta en estructuras de correlación, etc.). Es casi imposible que un solo modelo describa perfectamente un fenómeno del mundo real dado que tenemos una visión subjetiva del mundo (nuestro sistema sensorial no es perfecto); Sin embargo, la inferencia estadística exitosa sucede ya que nuestro mundo tiene un cierto grado de consistencia que explotamos. Por lo tanto, nuestros modelos casi siempre incorrectos son útiles .

(Estoy seguro de que pronto obtendrá una gran respuesta audaz, ¡pero intenté ser conciso con esta!)


¿Podemos decir que estos modelos útiles proporcionan soluciones aproximadas?
gpuguy

2
@gpuguy: Claro que puedes. Para citar a John Tukey: An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.(. De hecho, me lo cita de JT es increíblemente perspicaz)
usεr11852 dice Restablecer Monic

66
"Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta incorrecta, que siempre se puede precisar". John W. Tukey 1962 El futuro del análisis de datos. Annals of Mathematical Statistics 33: 1-67 (ver págs. 13-14) Sin duda, dijo cosas similares en otros momentos, pero esa es la fuente habitual.
Nick Cox

Hice una copia de la cita directamente del hilo de citas del CV correspondiente.
usεr11852 dice Reinstate Monic el

66
Copié el mío de la publicación original.
Nick Cox

6

Encontré esta charla de JSA de 2009 de Thad Tarpey para proporcionar una explicación útil y comentarios sobre el pasaje de Box. Argumenta que si consideramos los modelos como aproximaciones a la verdad, podríamos llamar a todos los modelos correctamente.

Aquí está el resumen:

A los estudiantes de estadística a menudo se les presenta la famosa cita de George Box: "todos los modelos están equivocados, algunos son útiles". En esta charla sostengo que esta cita, aunque útil, es incorrecta. Una perspectiva diferente y más positiva es reconocer que un modelo es simplemente un medio de extraer información de interés de los datos. La verdad es infinitamente compleja y un modelo es simplemente una aproximación a la verdad. Si la aproximación es pobre o engañosa, entonces el modelo es inútil. En esta charla, doy ejemplos de modelos correctos que no son modelos verdaderos. Ilustramos cómo la noción de un modelo "incorrecto" puede llevar a conclusiones erróneas.


3

Para mí, la idea real radica en el siguiente aspecto:

Un modelo no tiene que ser correcto para ser útil.

¡Desafortunadamente en muchas ciencias a menudo se olvida que los modelos no necesariamente tienen que ser representaciones exactas de la realidad para permitir nuevos descubrimientos y predicciones!

Por lo tanto, no pierda su tiempo construyendo un modelo complicado que necesita mediciones precisas de una gran cantidad de variables. El verdadero genio inventa un modelo simple que hace el trabajo.


3

Un modelo no puede proporcionar predicciones 100% precisas si hay alguna aleatoriedad en los resultados. Si no hubiera incertidumbre, aleatoriedad ni error, se consideraría un hecho más que un modelo. El primero es muy importante, porque los modelos se usan con frecuencia para modelar expectativas de eventos que no han ocurrido. Esto casi garantiza que existe cierta incertidumbre sobre los hechos reales.

Dada la información perfecta, en teoría podría ser posible crear un modelo que ofrezca predicciones perfectas para eventos tan precisamente conocidos. Sin embargo, incluso dadas estas circunstancias poco probables, un modelo de este tipo puede ser tan complejo como para ser inviable desde el punto de vista computacional, y solo puede ser preciso en un momento particular en el tiempo a medida que otros factores cambian la forma en que los valores cambian con los eventos.

Dado que la incertidumbre y la aleatoriedad están presentes en la mayoría de los datos del mundo real, los esfuerzos para obtener un modelo perfecto son un ejercicio inútil. En cambio, es más valioso considerar la obtención de un modelo suficientemente preciso que sea lo suficientemente simple como para ser utilizable tanto en términos de datos como de cómputo requerido para su uso. Si bien se sabe que estos modelos son imperfectos, algunos de estos defectos son bien conocidos y pueden considerarse para la toma de decisiones en función de los modelos.

Los modelos más simples pueden ser imperfectos, pero también son más fáciles de razonar, de comparar entre sí, y pueden ser más fáciles de trabajar porque es probable que sean menos exigentes computacionalmente.


3

Si puedo, solo un comentario más puede ser útil. La versión de la oración que prefiero es

(...) todos los modelos son aproximaciones. Esencialmente, todos los modelos están equivocados, pero algunos son útiles (...)

tomado de Superficies de respuesta, mezclas y análisis de cresta de Box and Draper (2007, p. 414, Wiley). Al observar la cita extendida, queda más claro lo que significa Box: el modelado estadístico se trata de aproximar la realidad y la aproximación nunca es exacta, por lo que se trata de encontrar la aproximación más adecuada . Lo que es apropiado para su propósito es algo subjetivo, es por eso que no es uno de los modelos que es útil, pero posiblemente algunos de ellos lo sean, dependiendo del propósito del modelado.


3

Como nadie lo ha agregado, George Box utilizó la fase citada para presentar la siguiente sección en un libro. Creo que hace el mejor trabajo al explicar lo que quiso decir:

PV=RTPVTR

Para tal modelo no hay necesidad de hacer la pregunta "¿Es verdadero el modelo?". Si la "verdad" es la "verdad completa", la respuesta debe ser "No". La única pregunta de interés es "¿Es el modelo esclarecedor y útil?".

Box, GEP (1979), "Robustez en la estrategia de construcción de modelos científicos", en Launer, RL; Wilkinson, GN, Robustez en estadística , Academic Press, págs. 201–236.


2

Puedes pensarlo de esta manera. La máxima complejidad (es decir, entropía) de un objeto obedece a alguna forma del límite de Bekenstein :

I2πREcln2

ER

Esa es una gran cantidad, en la mayoría de los casos:

2.58991·1042Ω=2I107.79640·1041

Entonces, ¿desea utilizar "el mejor mapa", es decir, el territorio en sí, con todas las ecuaciones de onda para todas las partículas en cada celda? Absolutamente no. No solo sería un desastre computacional, sino que estaría modelando cosas que esencialmente no tienen nada que ver con lo que le importa. Si todo lo que quiere hacer es, digamos, identificar si estoy despierto o no, no necesita saber qué está haciendo el electrón # 32458 en la neurona # 844030 ribosoma # 2305 molécula # 2. Si no modela eso, su modelo está realmente "equivocado", pero si puede identificar si estoy despierto o no, su modelo es definitivamente útil.


2

Creo que Peter y user11852 dieron excelentes respuestas. También agregaría (por negación) que si un modelo fuera realmente bueno, probablemente sería inútil debido al sobreajuste (por lo tanto, no es generalizable).


2
+1 para el punto de sobreajuste. Los algoritmos como Naive Bayes y el análisis discriminante lineal a menudo funcionan muy bien, incluso si sabe que el modelo subyacente es incorrecto (por ejemplo, el filtrado de spam), simplemente porque se necesitan menos datos para estimar los parámetros.
Dikran Marsupial

1

Mi interpretación ácida es: creer que un modelo matemático describe exactamente todos los factores, y sus interacciones, gobernar un fenómeno de interés sería demasiado simplista y arrogante. Ni siquiera sabemos si la lógica que usamos es suficiente para entender nuestro universo. Sin embargo, algunos modelos matemáticos representan una aproximación suficientemente buena (en términos del método científico) que son útiles para sacar conclusiones sobre dicho fenómeno.


1

Como astrostatistician (una raza rara quizás), encuentro que la fama del dictamen de Box es desafortunada. En las ciencias físicas, a menudo tenemos un fuerte consenso para comprender los procesos subyacentes de un fenómeno observado, y estos procesos a menudo pueden expresarse mediante modelos matemáticos derivados de las leyes de gravitación, mecánica cuántica, termodinámica, etc. Los objetivos estadísticos son estimar las propiedades físicas de los parámetros del modelo de mejor ajuste, así como la selección y validación del modelo. Un dramático caso reciente surgió de la publicación en marzo de 2013 de documentos del satélite Planck de la Agencia Espacial EuropeaLas mediciones del fondo cósmico de microondas que establece de manera convincente un modelo simple de 6 parámetros 'LambdaCDM' para el Big Bang. Dudo que el dictamen de Box se aplique en cualquier lugar dentro de la amplia gama de métodos estadísticos avanzados utilizados en estos 29 documentos.


1

Acabo de reformular la respuesta anterior al considerar los modelos de proceso como punto de enfoque. La declaración se puede interpretar de la siguiente manera:

"Todos los modelos están equivocados", es decir, todos los modelos están equivocados porque es una simplificación de la realidad. Algunos modelos solo están un poco equivocados. Ignoran algunas cosas, por ejemplo: -> requisitos cambiantes, -> Ignorando la finalización del proyecto dentro de la fecha límite, -> sin considerar el nivel de calidad deseado por el cliente, etc. Otros modelos están muy equivocados, ignoran Cosas más grandes. Los modelos de proceso de software clásicos ignoran mucho en comparación con los modelos de proceso ágiles que ignoran menos.

"Pero algunos son útiles": las simplificaciones de la realidad pueden ser bastante útiles. Pueden ayudarnos a explicar, predecir y comprender el proyecto general y todos sus diversos componentes. Los modelos se usan porque sus características corresponden a la mayoría de los programas de desarrollo de software.


0

Me gustaría dar otra interpretación del término "útil". Probablemente no en el que Box pensó.

Cuando tiene que tomar decisiones, y esto es para lo que finalmente se utilizará toda la información, debe medir su éxito de alguna forma. Cuando se habla de decisiones con información incierta, esta medida a menudo se llama utilidad.

Por lo tanto, también podemos pensar en modelos útiles como aquellos que nos permiten tomar decisiones más informadas; para lograr nuestros objetivos de manera más efectiva.

Esto agrega otra dimensión además de los criterios habituales, como la capacidad de un modelo para predecir algo correctamente: nos permite sopesar los diferentes aspectos de los que se trata un modelo entre sí.


-2

"Todos los modelos están equivocados, pero algunos son útiles". Quizás significa: ¿Deberíamos estar haciendo lo mejor que podamos con lo que sabemos + buscar un nuevo aprendizaje?


44
(-1) ¿Puede proporcionar alguna referencia que sugiera que GEP Box significa eso? Como puede encontrar en las otras respuestas, quiso decir algo totalmente diferente.
Tim

El OP quizás esté tomando la cita y dándole una nueva interpretación. Estoy de acuerdo con Tim en que Box decía más o menos que no tome el modelo como una interpretación exacta de la realidad, pero reconozca que algún modelo puede describir bien los datos.
Michael Chernick
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.