¿Se ajusta un modelo a los datos o se ajustan los datos a un modelo?


20

¿Existe una diferencia conceptual o de procedimiento entre ajustar un modelo a datos y ajustar datos a modelos? Se puede ver un ejemplo de la primera redacción en https://courses.washington.edu/matlab1/ModelFitting.html , y de la segunda en https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .


77
+1 No estoy impresionado por el segundo enlace, pero estoy entretenido.
El Laconic

Muchos modelos se ajustan a los datos actuales, pero los datos generalmente se ajustan al mejor modelo
Agnius Vasiliauskas,

Respuestas:


35

Casi todas las fuentes o personas con las que he interactuado, excepto la fuente de Wolfram que vinculó, se refieren al proceso como la adaptación de un modelo a los datos . Esto tiene sentido, ya que el modelo es el objeto dinámico y los datos son estáticos (también conocidos como fijos y constantes).

Para aclararlo, me gusta el enfoque de Larry Wasserman sobre esto. En su relato, un modelo estadístico es una colección de distribuciones. Por ejemplo, la colección de todas las distribuciones normales:

{Normal(μ,σ):μ,σR,σ>0}

o el conjunto de todas las distribuciones de Poisson:

{Poisson(λ):λR,λ>0}

Ajustar una distribución a los datos es cualquier algoritmo que combina un modelo estadístico con un conjunto de datos (los datos son fijos), y elige exactamente una de las distribuciones del modelo como la que "mejor" refleja los datos.

El modelo es lo que cambia (más o menos): lo estamos colapsando de una colección completa de posibilidades en una sola mejor opción. Los datos son solo los datos; no le pasa nada en absoluto.


16

En el campo del modelado de Rasch, es común ajustar los datos al modelo. Se supone que el modelo es correcto y es tarea del analista encontrar datos que se ajusten a él. El artículo de Wikipedia sobre Rasch contiene más detalles sobre cómo y por qué.

Pero estoy de acuerdo con otros en que, en general, en estadística ajustamos el modelo a los datos porque podemos cambiar el modelo, pero se considera una mala forma de seleccionar o modificar los datos.


7

Por lo general, los datos observados son fijos mientras el modelo es mutable (por ejemplo, porque se estiman los parámetros), por lo que es el modelo que se ajusta a los datos, no al revés . (Por lo general, las personas se refieren a este caso cuando dicen cualquier expresión).

Cuando la gente dice que ajustan los datos a un modelo, me encuentro tratando de averiguar qué diablos hicieron con los datos. .

[Ahora, si está transformando datos , podría decirse que sería 'ajustar los datos a un modelo', pero la gente casi nunca dice eso para este caso.]


55
Eliminar los valores atípicos también sería (podría decirse) "ajustar los datos a un modelo".
Federico Poloni

1
El enunciado podría tener sentido si lo piensan como "ajuste (datos a un modelo)". Es decir, está haciendo un proceso de ajuste, y ese proceso de ajuste comienza a partir de los datos y los transforma en un modelo. Estoy de acuerdo en que es una interpretación menos común / precisa en comparación con el análisis "(ajuste X) a Y", pero lo expuse como una justificación de por qué alguien podría decirlo lógicamente.
RM

1
Los valores atípicos de @FedericoPoloni generalmente se definen independientemente del modelo que luego desee usar. Entonces, incluso si quisiéramos llamarlo datos de ajuste, no sería un modelo, sino algo más.
BartoszKP

1
+1. Hay una razón por la que se llama "datos": es lo que se da , vea el origen latino de la palabra: latindictionary.wikidot.com/verb:dare
Christoph Hanck

2

Por lo general, suponemos que nuestros datos corresponden al "mundo real" y realizar cualquier modificación significa que nos estamos alejando de modelar el "mundo real". Por ejemplo, uno debe tener cuidado de eliminar los valores atípicos, ya que incluso si hace que el cálculo sea más agradable, los valores atípicos siguen siendo parte de nuestros datos.

Al probar un modelo o estimar las propiedades de un estimador usando bootstrap u otras técnicas de remuestreo, podemos simular nuevos datos usando un modelo estimado y nuestros datos originales. Esto supone que el modelo es correcto y que no estamos modificando nuestros datos originales.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.