En el análisis de regresión, ¿cuál es la diferencia entre 'proceso de generación de datos' y 'modelo'?
En el análisis de regresión, ¿cuál es la diferencia entre 'proceso de generación de datos' y 'modelo'?
Respuestas:
Todos tenemos un buen sentido de lo que podría significar "modelo", aunque su definición técnica variará según las disciplinas. Para comparar esto con DGP, comencé mirando los cinco primeros éxitos (contando dos éxitos con el mismo autor como uno) en Google "proceso de generación de datos".
Un documento sobre cómo la Fuerza Aérea de los Estados Unidos realmente crea datos en apoyo logístico.
Resumen de un artículo publicado en Environment and Planning A sobre cómo se crean las "micropoblaciones sintéticas" a través de "modelos de simulación" informáticos.
Una página web sobre "generación de datos sintéticos"; es decir, simulación "para explorar los efectos de ciertas características de datos en ... modelos".
Resumen de un documento de conferencia sobre minería de datos, afirmando que "los datos en bases de datos son el resultado de un proceso subyacente de generación de datos (dgp)".
Un capítulo del libro que caracteriza los datos de interés como "derivados de alguna transformación de un proceso [estocástico] subyacente V t ... algunos o todos [de los cuales] pueden no ser observados ..."
Estos enlaces exhiben tres usos ligeramente diferentes pero estrechamente relacionados del término "proceso de generación de datos". Lo más común es en un contexto de simulación estadística. Los otros se refieren a los medios reales por los cuales los datos se crean en una situación en curso (logística) y a un modelo de probabilidad para un procedimiento de creación de datos en curso, destinado a no ser analizado directamente. En el último caso, el texto está diferenciando un proceso estocástico no observable, que sin embargo está modelado matemáticamente, de los números reales que se analizarán.
Estos sugieren que dos respuestas ligeramente diferentes son sostenibles:
En el contexto de la simulación o la creación de datos "sintéticos" para el análisis, el "proceso de generación de datos" es una forma de generar datos para su posterior estudio, generalmente mediante el generador de números pseudoaleatorios de una computadora. El análisis adoptará implícitamente algún modelo que describa las propiedades matemáticas de este DGP.
En el contexto del análisis estadístico, es posible que queramos distinguir un fenómeno del mundo real (DGP) de las observaciones que se analizarán. Tenemos modelos para el fenómeno y las observaciones, así como un modelo de cómo están conectados los dos.
estar relacionado con los valores de . El modelo describiría las posibles formas en que estos datos podrían estar matemáticamente relacionados; por ejemplo , podríamos decir que cada es una variable aleatoria con expectativa y varianza para parámetros desconocidos y .
El DGP es el verdadero modelo. El modelo es lo que hemos intentado, utilizando nuestras mejores habilidades, para representar el verdadero estado de la naturaleza. El DGP está influenciado por el "ruido". El ruido puede ser de muchos tipos:
Si no controla estos 6 elementos, se reduce su capacidad para identificar el verdadero DGP.
La respuesta de Whuber es excelente, pero vale la pena agregar énfasis al hecho de que un modelo estadístico no necesita parecerse al modelo generador de datos en todos los aspectos para ser un modelo apropiado para la exploración inferencial de datos. Liu y Meng explican ese punto con gran claridad en su reciente artículo presentado ( http://arxiv.org/abs/1510.08539 ):
Concepto erróneo 1. Un modelo de probabilidad debe describir la generación de los datos.
) En ninguna parte es este punto más claro que en aplicaciones que involucran experimentos informáticos en los que se usa un patrón probabilístico para describir datos siguiendo un patrón determinista conocido (pero muy complicado) (Kennedy y O'Hagan, 2001; Conti et al., 2009). Necesitamos un modelo descriptivo, no necesariamente un modelo generativo. Ver Lehmann (1990), Breiman (2001) y Hansen y Yu (2001) para más información sobre este punto.
DGP es la realidad virtual y una receta única para la simulación. Un modelo es una colección de DGP o posibles formas en que los datos podrían haberse generado.
Lea la primera página de este mini curso de Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf