Estoy un poco confundido si una variable independiente (también llamada predictor o característica) en un modelo estadístico, por ejemplo, la en regresión lineal , ¿es una variable aleatoria?Y = β 0 + β 1 X
Estoy un poco confundido si una variable independiente (también llamada predictor o característica) en un modelo estadístico, por ejemplo, la en regresión lineal , ¿es una variable aleatoria?Y = β 0 + β 1 X
Respuestas:
Hay dos formulaciones comunes de regresión lineal. Para centrarme en los conceptos, los resumiré un poco. La descripción matemática es un poco más complicada que la descripción en inglés, así que comencemos con la última:
La regresión lineal es un modelo en el que se supone que una respuesta es aleatoria con una distribución determinada por los regresores través de un mapa lineal y, posiblemente, por otros parámetros .
En la mayoría de los casos, el conjunto de posibles distribuciones es una familia de ubicaciones con parámetros y y proporciona el parámetro . El ejemplo arquetípico es la regresión ordinaria en la que el conjunto de distribuciones es la familia Normal y es una función lineal de los regresores.
Debido a que aún no lo he descrito matemáticamente, todavía es una pregunta abierta a qué tipo de objetos matemáticos se refieren , , y , y creo que ese es el problema principal en este hilo. Aunque uno puede hacer varias elecciones (equivalentes), la mayoría será equivalente a, o casos especiales, de la siguiente descripción.
Regresores fijos. Los regresores se representan como vectores reales . La respuesta es una variable aleatoria (donde está dotado de un campo sigma y probabilidad). El modelo es una función (o, si lo desea, un conjunto de funciones parametrizado por ). es un submanifold topológico dimensional (generalmente segundo diferenciable) (o submanifold con límite) de dimensión del espacio de distribuciones de probabilidad. Y : Ω → R Ω f : R × Θ → M d R → M d Θ M d d f Θ ⊂ R d - 1 Y f ( β ( X ) , θ ) β ∈ R p ∗ θ ∈ Θ Y ∼ f ( β ( X ) , θgeneralmente se toma como continuo (o suficientemente diferenciable). son los "parámetros molestos". Se supone que la distribución de es para algún vector dual desconocido (los "coeficientes de regresión") y desconocido . Podemos escribir este
Regresores aleatorios. Los regresores y la respuesta son una variable aleatoria con valor vectorial dimensional . El modelo es el mismo tipo de objeto que antes, pero ahora da la probabilidad condicionalY | X ∼ f ( β ( X ) , θ ) .
La descripción matemática es inútil sin alguna receta que indique cómo se pretende aplicar a los datos. En el caso del regresor fijo, concebimos que es especificado por el experimentador. Por lo tanto, podría ayudar ver a como un producto dotado de un álgebra sigma de producto. El experimentador determina y la naturaleza determina (algunos desconocidos, abstractos) . En el caso del regresor aleatorio, la naturaleza determina , el componente de la variable aleatoria determina(que se "observa"), y ahora tenemos un par ordenado exactamente como en el caso del regresor fijo.
El ejemplo arquetípico de regresión lineal múltiple (que expresaré usando notación estándar para los objetos en lugar de esta más general) es que para alguna constante . Como varía a lo largo de , su imagen traza de manera diferente un subconjunto unidimensional, una curva, en la variedad bidimensional de distribuciones normales.
Cuando, de cualquier forma, se estima como y como , el valor de es el valor predicho de asociado con si es controlado por el experimentador (caso 1) o solo se observa (caso 2). Si establecemos un valor (caso 1) u observamos una realización (caso 2) de , entonces la respuesta asociada con esa es una variable aleatoria cuya distribución es , que es desconocido peroß sigma sigma ß ( x ) Y x x xY X N ( β ( x ) , σ ) N ( β ( x ) , σ ) estimado como .
En primer lugar, @whuber dio una excelente respuesta. Le daré una opinión diferente, quizás más simple en algún sentido, también con una referencia a un texto.
puede ser aleatorio o fijo en la formulación de regresión. Esto depende de tu problema. Para los llamados estudios observacionales tiene que ser aleatorio, y para los experimentos generalmente es fijo.
Ejemplo uno Estoy estudiando el impacto de la exposición a la radiación electrónica en la dureza de una parte metálica. Entonces, tomo algunas muestras de la parte metálica y la expongo a niveles variables de radiación. Mi nivel de exposición es X, y es fijo , porque configuré los niveles que elegí. Yo controlo completamente las condiciones del experimento, o al menos lo intento. Puedo hacer lo mismo con otros parámetros, como la temperatura y la humedad.
Ejemplo dos Estás estudiando el impacto de la economía en la frecuencia de casos de fraude en las solicitudes de tarjetas de crédito. Entonces, retrocede el evento de fraude cuenta con el PIB. Usted no controla el PIB, no puede establecer el nivel deseado. Además, es probable que desee ver regresiones multivariadas, por lo que tiene otras variables como el desempleo, y ahora tiene una combinación de valores en X, que observa , pero no controla. En este caso, X es aleatorio .
Ejemplo tres Usted está estudiando la eficacia del nuevo pesticida en el campo, es decir, no en las condiciones de laboratorio, sino en la granja experimental real. En este caso, puede controlar algo, por ejemplo, puede controlar la cantidad de pesticida para poner. Sin embargo, usted no controla todo, por ejemplo, el clima o las condiciones del suelo. Ok, puedes controlar el suelo hasta cierto punto, pero no completamente. Este es un caso intermedio, donde se observan algunas condiciones y se controlan algunas condiciones . Existe todo este campo de estudio llamado diseño experimental que se centra realmente en este tercer caso, donde la investigación agrícola es una de sus principales aplicaciones.
Aquí va la parte matemática de una respuesta. Hay un conjunto de suposiciones que generalmente se presentan al estudiar la regresión lineal, llamadas condiciones de Gauss-Markov. Son muy teóricos y nadie se molesta en demostrar que tienen una configuración práctica. Sin embargo, son muy útiles para comprender las limitaciones del método de mínimos cuadrados ordinarios (MCO).
Por lo tanto, el conjunto de supuestos es diferente para X aleatorio y fijo, que corresponden aproximadamente a estudios observacionales versus experimentales. Aproximadamente, porque como mostré en el tercer ejemplo, a veces estamos realmente en el medio de los extremos. Encontré que la sección del teorema "Gauss-Markov" en la Enciclopedia del diseño de investigación de Salkind es un buen lugar para comenzar, está disponible en Google Books.
Los diferentes supuestos del diseño fijo son los siguientes para el modelo de regresión habitual :
vs. los mismos supuestos en el diseño aleatorio:
Como puede ver, la diferencia está en condicionar los supuestos en la matriz de diseño para el diseño aleatorio. El condicionamiento hace estos supuestos más fuertes. Por ejemplo, no solo estamos diciendo, como en el diseño fijo, que los errores tienen una media cero; en diseño aleatorio también decimos que no dependen de X, covariables.
En estadística, una variable aleatoria es la cantidad que varía aleatoriamente de alguna manera. Puede encontrar una buena discusión en este excelente hilo de CV: ¿Qué se entiende por "variable aleatoria"?
En un modelo de regresión, se supone que las variables predictoras (variables X, variables explicativas, covariables, etc.) son fijas y conocidas . No se supone que sean al azar. Se supone que toda la aleatoriedad en el modelo está en el término de error. Considere un modelo de regresión lineal simple como está formulado de manera estándar:
El término de error, , es una variable aleatoria y es la fuente de la aleatoriedad en el modelo. Como resultado del término de error, es una variable aleatoria. Pero no se supone que sea una variable aleatoria. (Por supuesto, podría ser una variable aleatoria en la realidad
ε Y X
No estoy seguro si entiendo la pregunta, pero si solo está preguntando, "una variable independiente debe ser siempre una variable aleatoria", entonces la respuesta es no.
Una variable independiente es una variable cuya hipótesis se correlaciona con la variable dependiente. Luego prueba si este es el caso a través del modelado (presumiblemente análisis de regresión).
Aquí hay muchas complicaciones y "ifs, buts y maybes", por lo que sugeriría obtener una copia de un libro de estadísticas o econometría básica que cubra el análisis de regresión y leerlo a fondo, o bien obtener las notas de clase de una estadística / econometría básica curso en línea si es posible.