¿Qué es exactamente construir un modelo estadístico?


15

¿Qué es exactamente construir un modelo estadístico?

En estos días, cuando solicito trabajos de investigación o consultoría, a menudo aparece el término "construir un modelo" o "modelar". El término suena bien, pero ¿a qué se refieren exactamente? ¿Cómo se construye su modelo?

Busqué modelos predictivos , que incluyen k-nn y regresión logística.


1
Eso es bastante amplio, que podría referirse a una gran variedad de modelos - varios tipos de regresión, modelos multinivel, árboles y sus variantes, la agrupación etc ....
Peter Flom - Restablecer Mónica

Un modelo estadístico es lo mismo que un modelo matemático, excepto que un modelo estadístico tiene una variable que explica los errores. Modelo matemático: Peso = Altura * 2.7. Modelo estadístico: Peso = Altura * 2.7 + error.
Neil McGuigan

2
Me gustaría citar este artículo : Modelización estadística: las dos culturas
user13985

Respuestas:


12

Voy a echar un vistazo a esto, aunque no soy un estadístico de ninguna manera, pero termino haciendo muchos 'modelos', estadísticos y no estadísticos.

Primero comencemos con lo básico:

¿Qué es exactamente un modelo?

Un modelo es una representación de la realidad, aunque muy simplificada. Piense en un 'modelo' de cera / madera para una casa. Puedes tocarlo / sentirlo / olerlo. Ahora un modelo matemático es una representación de la realidad usando números.

¿Qué es esta 'realidad' que te oigo preguntar? Bueno. Así que piense en esta situación simple: el gobernador de su estado implementa una política que dice que el precio de un paquete de cigarrillos ahora costaría $ 100 para el próximo año. El 'objetivo' es disuadir a las personas de comprar cigarrillos, lo que disminuye el tabaquismo y hace que los fumadores sean más saludables (porque dejarían de fumar).

Después de 1 año, el gobernador le pregunta: ¿fue un éxito? Cómo puedes decir eso? Bueno, captura datos como la cantidad de paquetes vendidos / día o por año, las respuestas de la encuesta, cualquier dato medible que pueda tener en sus manos y que sea relevante para el problema. Acaba de comenzar a "modelar" el problema. Ahora quieres analizar lo que dice este 'modelo' . Ahí es donde el modelado estadístico es útil. Podría ejecutar un diagrama de correlación / dispersión simple para ver cómo se ve el modelo. Podrías imaginarte para determinar la causalidad, es decir, si el aumento del precio condujo a una disminución en el tabaquismo o si hay otros factores de confusión en juego (es decir, ¿tal vez es algo completamente diferente y quizás tu modelo se lo perdió?).

Ahora, la construcción de este modelo se realiza mediante un 'conjunto de reglas' (más como directrices), es decir, qué es / no es legal o qué tiene / no tiene sentido. Debe saber lo que está haciendo y cómo interpretar los resultados de este modelo. Construir / Ejecutar / Interpretar este modelo requiere conocimientos básicos de estadística. En el ejemplo anterior, necesita saber sobre gráficos de correlación / dispersión, regresión (uni y multivariante) y otras cosas. Sugiero leer la lectura absolutamente divertida / informativa sobre la comprensión de las estadísticas de forma intuitiva: de todos modos, ¿qué es un valor p? Es una introducción humorística a las estadísticas y le enseñará a 'modelar' en el camino de simple a avanzado (es decir, regresión lineal). Entonces puedes seguir y leer otras cosas.

Entonces, recuerde que un modelo es una representación de la realidad y que "Todos los modelos están equivocados, pero algunos son más útiles que otros" . Un modelo es una representación simplificada de la realidad y no puede considerarlo todo, pero debe saber qué hacer y qué no tener en cuenta para tener un buen modelo que pueda brindarle resultados significativos.

No se detiene aquí. ¡También puedes crear modelos para simular la realidad! Así es como un grupo de números cambiará con el tiempo (digamos). Estos números se asignan a alguna interpretación significativa en su dominio. También puede crear estos modelos para extraer sus datos para ver cómo se relacionan las diversas medidas entre sí (la aplicación de estadísticas aquí puede ser cuestionable, pero no se preocupe por ahora). Ejemplo: Usted mira las ventas de comestibles para una tienda por mes y se da cuenta de que cada vez que se compra cerveza, también lo hace un paquete de pañales (construye un modelo que recorre el conjunto de datos y le muestra esta asociación). Puede ser extraño, pero puede implicar que la mayoría de los padres compran esto durante el fin de semana cuando cuidan a sus hijos. ¡Coloque pañales cerca de las cervezas y puede aumentar sus ventas! Aaah! Modelado :)

Estos son solo ejemplos y de ninguna manera una referencia para el trabajo profesional. Básicamente construye modelos para comprender / estimar cómo funcionará / funcionó la realidad y para tomar mejores decisiones basadas en los resultados. Estadísticas o no, probablemente has estado modelando toda tu vida sin darte cuenta. La mejor de las suertes :)


11

La construcción de un modelo estadístico implica la construcción de una descripción matemática de algunos fenómenos del mundo real que tenga en cuenta la incertidumbre y / o la aleatoriedad involucrada en ese sistema. Dependiendo del campo de aplicación, esto podría variar desde algo tan simple como la regresión lineal o la prueba de hipótesis básica, hasta el análisis de factores multivariados o la minería de datos.


55
He votado esto porque es un esfuerzo valiente y concienzudo para responder a una pregunta extremadamente amplia. Sin embargo, tengo algunas dudas sobre si la "minería de datos" implica algún modelo estadístico, y agradecería ver un ejemplo o una aclaración de lo que quiere decir con esa frase.
whuber

@whuber LASSO presenta la selección, ¿no es eso construir un modelo de regresión en algún sentido?
user13985

En otras palabras, ¿es un poco como construir una casa solo con ladrillos y mortero imaginarios? Mi comentario esotérico se dice en broma. :)
Graeme Walsh

1
La minería de datos puede usarse como parte del proceso de construcción o validación de un modelo dado.
Dave

5

Para mí, modelar implica especificar un marco probabilístico para los datos observados con parámetros estimables que pueden usarse para discernir diferencias valiosas en los datos observables cuando existen. Esto se llama poder. Los modelos probabilísticos se pueden usar para predicción o inferencia. Se pueden usar para calibrar maquinaria, demostrar deficiencias en el retorno de la inversión, pronosticar el clima o las existencias, o simplificar la toma de decisiones médicas.

Un modelo no necesariamente necesita ser construido. En un experimento aislado, se puede usar un enfoque de modelado no paramétrico, como la prueba t para determinar si hay una diferencia significativa en las medias entre dos grupos. Sin embargo, para muchos propósitos de pronóstico, se pueden construir modelos para detectar cambios a tiempo. Por ejemplo, los modelos de Markov basados ​​en la transición se pueden usar para predecir oscilaciones ascendentes y descendentes en el valor de mercado para las inversiones, pero ¿en qué medida se puede considerar un "descenso" peor de lo esperado? Usando evidencia histórica y predictores observados, uno puede construir un modelo sofisticado para calibrar si las caídas observadas son significativamente diferentes de las que históricamente se han sostenido. Usando herramientas como cuadros de control, cuadros de incidencia acumulada, curvas de supervivencia y otros cuadros "basados ​​en el tiempo", se '

Alternativamente, algunos modelos se "construyen" al tener la flexibilidad de adaptarse a medida que crecen los datos. La detección de tendencias de Twitter y el sistema de recomendación de Netflix son ejemplos principales de tales modelos. Tienen una especificación general (Promedio de modelo bayesiano, para este último) que permite un modelo flexible para acomodar cambios históricos y tendencias y recalibrar para mantener la mejor predicción, como la introducción de películas de alto impacto, una gran captación de nuevos usuarios o un cambio dramático en la preferencia cinematográfica debido a la estacionalidad.

Algunos de los enfoques de minería de datos se introducen porque son muy expertos en lograr ciertos tipos de enfoques de predicción (una vez más, la cuestión de obtener tendencias o valores "esperados" en los datos). K-NN es una forma de incorporar datos de alta dimensión e inferir si los sujetos pueden recibir predicciones confiables simplemente debido a la proximidad (ya sea por edad, gusto musical, historia sexual o algún otro rasgo medible). La regresión logística, por otro lado, puede obtener un clasificador binario, pero se usa mucho más comúnmente para inferir sobre la asociación entre un resultado binario y una o más exposiciones y condiciones a través de un parámetro llamado odds ratio. Debido a los teoremas de límites y su relación con los modelos lineales generalizados, los odds ratios son parámetros muy regulares que tienen un error tipo I "altamente conservado" (es decir,


Gracias por tus palabras. En el caso de la detección de Twitter de Netflix, ¿no está eso más o menos en el ámbito del aprendizaje automático? A menudo no puedo trazar la línea entre el modelado y el aprendizaje automático.
user13985

1
El aprendizaje automático suele ser modelado de alta dimensión. Muchos métodos son casos especiales de métodos existentes basados ​​en la probabilidad con penalizaciones o ponderaciones empleadas.
AdamO

Gracias por validar mis pensamientos, avíseme si desea algo más.
user13985

3

El modelado es el proceso de identificar un modelo adecuado.

Con frecuencia, un modelista tendrá una buena idea de variables importantes, y tal vez incluso tenga una base teórica para un modelo en particular. También sabrán algunos hechos sobre la respuesta y el tipo general de relaciones con los predictores, pero aún pueden no estar seguros de que su idea general de un modelo sea completamente adecuada, incluso con una excelente idea teórica de cómo debería funcionar la media. por ejemplo, podría no estar seguro de que la variación no está relacionada con la media, o sospechar que podría ser posible alguna dependencia en serie.

Por lo tanto, puede haber un ciclo de varias etapas de identificación del modelo que haga referencia a (al menos algunos de) los datos. La alternativa es arriesgarse regularmente a tener modelos bastante inadecuados.

(Por supuesto, si son responsables, deben tener en cuenta cómo el uso de datos de esta manera afecta sus inferencias).

El proceso real varía un poco de un área a otra y de una persona a otra, pero es posible encontrar algunas personas que enumeren explícitamente los pasos en su proceso (por ejemplo, Box y Jenkins describen uno de esos enfoques en su libro sobre series de tiempo). Las ideas sobre cómo hacer la identificación del modelo cambian con el tiempo.


0

No creo que haya una definición común de lo que constituye un modelo estadístico. Según mi experiencia en la industria, parece ser un sinónimo de lo que en econometría se llama un modelo de forma reducida . Lo explicaré.

Supongamos que en su campo hay relaciones establecidas o "leyes", por ejemplo, en Física esto sería F=metrore2Xret2declarando que la fuerza es proporcional a la aceleración (también conocida como "segunda ley de la mecánica"). Entonces, conociendo esta ley, podrías construir un modelo matemático de una trayectoria de bala de cañón.

Este modelo tendrá lo que los físicos llaman "constantes" o "coeficientes", por ejemplo, una densidad del aire a una temperatura y elevación determinadas. Tendrás que averiguar cuáles son estos coeficientes experimentalmente. En nuestro caso, le pediremos a la artillería que dispare los cañones en muchas condiciones diferentes y estrictamente controladas, como ángulos, temperatura, etc.

Recopilamos todos los datos y ajustamos el modelo utilizando técnicas estadísticas. Podría ser tan simple como una regresión lineal o promedios. Una vez que obtuvimos todos los coeficientes, ahora ejecutamos nuestro modelo matemático para producir las tablas de disparo. Esto se describe claramente en el documento no clasificado aquí , llamado "LA PRODUCCIÓN DE TABLAS DE DISPARO PARA ARTILLERÍA DE CANNON".

Lo que acabo de describir no es un modelo estadístico. Sí, usa estadísticas, pero este modelo usa leyes de Física, que son la esencia del modelo. Aquí, las estadísticas son una mera herramienta para determinar los valores de algunos parámetros importantes. La dinámica del sistema está descrita y predeterminada por el campo.

Supongamos que no conocíamos o no nos importaban las leyes de la física, y simplemente intentamos establecer las relaciones entre la distancia de vuelo de los cañones y los parámetros como el ángulo de disparo y la temperatura utilizando un "modelo estadístico". Creamos un gran conjunto de datos con un montón de variables candidatas, o características, y transformaciones de variables, tal vez series de temperatura polinomiales, etc. Luego ejecutamos una especie de regresión, y los coeficientes identificados. Estos coeficientes no necesariamente habrían establecido interpretaciones en el campo. Les llamaríamos sensibilidades al cuadrado de temperatura, etc. Este modelo puede ser bastante bueno para predecir los puntos finales de las balas de cañón, porque el proceso subyacente es bastante estable.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.