¿Cuáles son los supuestos habituales para la regresión lineal?
¿Incluyen:
- Una relación lineal entre la variable independiente y la dependiente
- errores independientes
- distribución normal de errores
- homocedasticidad
¿Hay otros?
¿Cuáles son los supuestos habituales para la regresión lineal?
¿Incluyen:
¿Hay otros?
Respuestas:
La respuesta depende en gran medida de cómo define completa y habitual. Supongamos que escribimos el modelo de regresión lineal de la siguiente manera:
donde es el vector de las variables predictoras, es el parámetro de interés, es la variable de respuesta y es la perturbación. Una de las posibles estimaciones de es la estimación de mínimos cuadrados:
Ahora, prácticamente todos los libros de texto abordan los supuestos cuando esta estimación tiene propiedades deseables, como imparcialidad, consistencia, eficiencia, algunas propiedades de distribución, etc.
Cada una de estas propiedades requiere ciertos supuestos, que no son lo mismo. Entonces, la mejor pregunta sería preguntar qué supuestos son necesarios para las propiedades deseadas de la estimación LS.
Las propiedades que menciono anteriormente requieren algún modelo de probabilidad para la regresión. Y aquí tenemos la situación en la que se utilizan diferentes modelos en diferentes campos aplicados.
El caso simple es tratar como variables aleatorias independientes, con no aleatorio. No me gusta la palabra habitual, pero podemos decir que este es el caso habitual en la mayoría de los campos aplicados (que yo sepa).
Aquí está la lista de algunas de las propiedades deseables de las estimaciones estadísticas:
Existencia
La propiedad de existencia puede parecer extraña, pero es muy importante. En la definición de , invertimos la matriz
No se garantiza que exista el inverso de esta matriz para todas las variantes posibles de . Entonces inmediatamente obtenemos nuestra primera suposición:
Matrix debe ser de rango completo, es decir, invertible.
Imparcialidad
Tenemos
if
Podemos numerarlo como el segundo supuesto, pero podemos haberlo declarado directamente, ya que esta es una de las formas naturales de definir una relación lineal.
Tenga en cuenta que para obtener imparcialidad solo necesitamos que por todo , y son constantes. No se requiere propiedad de independencia.
Consistencia
Para obtener los supuestos de consistencia, necesitamos establecer más claramente a qué nos referimos con . Para las secuencias de variables aleatorias tenemos diferentes modos de convergencia: en probabilidad, casi seguramente, en distribución y sentido del momento . Supongamos que queremos obtener la convergencia en la probabilidad. Podemos usar cualquiera de las leyes de números grandes, o directamente usar la desigualdad multivariada de Chebyshev (empleando el hecho de que ):
(Esta variante de la desigualdad proviene directamente de la aplicación de la desigualdad de Markov a , señalando que .)
Dado que la convergencia en la probabilidad significa que el término de la izquierda debe desaparecer para cualquier como , necesitamos que como . Esto es perfectamente razonable ya que con más datos la precisión con la que estimamos debería aumentar.
Tenemos que
La independencia asegura que , por lo tanto, la expresión se simplifica a
Ahora suponga , luego
Ahora, si además requerimos que esté acotado para cada , inmediatamente obtenemos
Entonces, para obtener la consistencia, asumimos que no hay autocorrelación ( ), la varianza es constante y la no crece demasiado. El primer supuesto se cumple si proviene de muestras independientes.
Eficiencia
El resultado clásico es el teorema de Gauss-Markov . Las condiciones para ello son exactamente las dos primeras condiciones para la consistencia y la condición para la imparcialidad.
Propiedades de distribución
Si es normal, obtenemos inmediatamente que es normal, ya que es una combinación lineal de variables aleatorias normales. Si asumimos supuestos anteriores de independencia, falta de correlación y varianza constante, obtenemos que
donde .
Si no es normal, sino independiente, podemos obtener una distribución aproximada de gracias al teorema del límite central. Para ello tenemos que asumir que
para alguna matriz . La varianza constante para la normalidad asintótica no es necesaria si suponemos que
Tenga en cuenta que con la constante variación de , se tiene que . El teorema del límite central nos da el siguiente resultado:
Entonces, a partir de esto, vemos que la independencia y la varianza constante para y ciertos supuestos para nos dan muchas propiedades útiles para la estimación de LS .
La cuestión es que estos supuestos pueden ser relajados. Por ejemplo, requerimos que no sean variables aleatorias. Este supuesto no es factible en aplicaciones econométricas. Si dejamos que sea aleatorio, podemos obtener resultados similares si utilizamos expectativas condicionales y tenemos en cuenta la aleatoriedad de . El supuesto de independencia también puede ser relajado. Ya demostramos que a veces solo se necesita una falta de correlación. Incluso esto se puede relajar aún más y aún es posible demostrar que la estimación de LS será consistente y asintóticamente normal. Ver, por ejemplo, el libro de White para más detalles.
Hay una serie de buenas respuestas aquí. Se me ocurre que hay una suposición que no se ha establecido sin embargo (al menos no explícitamente). Específicamente, un modelo de regresión supone que (los valores de sus variables explicativas / predictoras) es fijo y conocido , y que toda la incertidumbre en la situación existe dentro de la variableAdemás, se supone que esta incertidumbre es solo un error de muestreo .
Aquí hay dos maneras de pensar acerca de esto: Si usted está construyendo un modelo explicativo (modelado de los resultados experimentales), usted sabe exactamente lo que los niveles de las variables independientes son, debido a que manipulado / ellas administrada. Además, decidió cuáles serían esos niveles antes de comenzar a recopilar datos. Entonces, está conceptualizando toda la incertidumbre en la relación como existente dentro de la respuesta. Por otro lado, si está construyendo un modelo predictivo, es cierto que la situación difiere, pero aún trata a los predictores como si fueran fijos y conocidos, porque, en el futuro, cuando use el modelo para hacer una predicción sobre el valor probable de , tendrá un vector,, y el modelo está diseñado para tratar esos valores como si fueran correctos. Es decir, concebirá la incertidumbre como el valor desconocido de .
Estos supuestos se pueden ver en la ecuación para un modelo de regresión prototípico: Un modelo con incertidumbre (quizás debido a un error de medición) en también podría tener el mismo proceso de generación de datos, pero el modelo se estima que se vería así: donde representa un error de medición aleatorio. (Situaciones como esta última han llevado a trabajar en errores en modelos de variables ; un resultado básico es que si hay un error de medición en , el ingenuo
Una consecuencia práctica de la asimetría intrínseca en el supuesto típico es que la regresión de en es diferente de la regresión de en . (Vea mi respuesta aquí: ¿Cuál es la diferencia entre hacer una regresión lineal en y con x versus x con y? Para una discusión más detallada de este hecho).
Los supuestos del modelo de regresión lineal clásico incluyen:
Aunque las respuestas aquí proporcionan una buena visión general del supuesto OLS clásico, puede encontrar una descripción más completa del supuesto del modelo de regresión lineal clásico aquí:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Además, el artículo describe las consecuencias en caso de que uno viole ciertas suposiciones.
¡¿Lo que da?!
Una respuesta es que se pueden usar conjuntos de supuestos algo diferentes para justificar el uso de la estimación de mínimos cuadrados ordinarios (MCO). OLS es una herramienta como un martillo: puede usar un martillo en las uñas, pero también puede usarlo en clavijas, para romper el hielo, etc.
Dos categorías amplias de supuestos son las que se aplican a muestras pequeñas y las que se basan en muestras grandes para que se pueda aplicar el teorema del límite central .
Pequeños supuestos de muestra como se discute en Hayashi (2000) son:
Bajo (1) - (4), se aplica el teorema de Gauss-Markov , y el estimador de mínimos cuadrados ordinario es el mejor estimador lineal imparcial.
Asumir más términos de error normales permite la prueba de hipótesis . Si los términos de error son condicionalmente normales, la distribución del estimador MCO también es condicionalmente normal.
Otro punto notable es que, con normalidad, el estimador OLS es también el estimador de máxima verosimilitud .
Estos supuestos se pueden modificar / relajar si tenemos una muestra lo suficientemente grande como para que podamos apoyarnos en la ley de los grandes números (para la consistencia del estimador MCO) y el teorema del límite central (de modo que la distribución muestral del estimador MCO converja a la distribución normal y podemos hacer pruebas de hipótesis, hablar de valores p, etc.).
Hayashi es un experto en macroeconomía y sus grandes suposiciones de muestra se formulan teniendo en cuenta el contexto de la serie temporal:
Puede encontrar versiones más fuertes de estos supuestos, por ejemplo, que los términos de error son independientes.
Las suposiciones de muestra grandes adecuadas lo llevan a una distribución de muestreo del estimador OLS que es asintóticamente normal.
Hayashi, Fumio, 2000, Econometría
Se trata de lo que quieres hacer con tu modelo. Imagínese si sus errores fueran sesgados positivamente / no normales. Si quisieras hacer un intervalo de predicción, podrías hacerlo mejor que usar la distribución t. Si su varianza es menor a valores pronosticados más pequeños, nuevamente, estaría haciendo un intervalo de predicción que es demasiado grande.
Es mejor entender por qué las suposiciones están ahí.
Los siguientes diagramas muestran qué supuestos son necesarios para obtener qué implicaciones en los escenarios finitos y asintóticos.
Creo que es importante pensar no solo cuáles son los supuestos, sino cuáles son las implicaciones de esos supuestos. Por ejemplo, si solo le importa tener coeficientes insesgados, entonces no necesita homoscedasticidad.
Los siguientes son los supuestos del análisis de regresión lineal.
Especificación correcta . La forma funcional lineal está correctamente especificada.
Estricta exogeneidad . Los errores en la regresión deben tener media condicional cero.
Sin multicolinealidad . Los regresores en X deben ser linealmente independientes.
Homocedasticidad, lo que significa que el término de error tiene la misma varianza en cada observación.
Sin autocorrelación : los errores no están correlacionados entre las observaciones.
Normalidad. A veces también se supone que los errores tienen una distribución normal condicional en los regresores.
Observaciones de Iid : es independiente de, y tiene la misma distribución que, para todo .
Para más información visite esta página .
No existe una lista única de supuestos, habrá al menos 2: uno para matriz de diseño fijo y otro para matriz aleatoria. Además, es posible que desee ver los supuestos para las regresiones de series temporales (consulte la p.13)
El caso en que la matriz de diseño es fija podría ser la más común, y sus suposiciones a menudo se expresan como un teorema de Gauss-Markov . El diseño fijo significa que realmente controlas los regresores. Por ejemplo, realiza un experimento y puede establecer parámetros como temperatura, presión, etc. Consulte también la p.13 aquí .
Desafortunadamente, en ciencias sociales como la economía, rara vez se pueden controlar los parámetros del experimento. Por lo general, observa lo que sucede en la economía, registra las métricas del entorno y luego retrocede en ellas. Resulta que es una situación muy diferente y más difícil, llamada diseño aleatorio . En este caso, el teorema de Gauss-Markov se modifica también ver p.12 aquí . Puede ver cómo las condiciones se expresan ahora en términos de probabilidades condicionales , que no es un cambio inocuo.
En econometría los supuestos tienen nombres:
Tenga en cuenta que nunca mencioné la normalidad. No es una suposición estándar. A menudo se usa en cursos de regresión de introducción porque facilita algunas derivaciones, pero no es necesario para que la regresión funcione y tenga buenas propiedades.
La suposición de linealidad es que el modelo es lineal en los parámetros. Está bien tener un modelo de regresión con efectos de orden cuadrático o superior siempre que la función de potencia de la variable independiente sea parte de un modelo aditivo lineal. Si el modelo no contiene términos de orden superior cuando debería, entonces la falta de ajuste será evidente en la gráfica de los residuos. Sin embargo, los modelos de regresión estándar no incorporan modelos en los que la variable independiente se eleva a la potencia de un parámetro (aunque existen otros enfoques que se pueden utilizar para evaluar dichos modelos). Dichos modelos contienen parámetros no lineales.
El coeficiente de regresión de mínimos cuadrados proporciona una forma de resumir la tendencia de primer orden en cualquier tipo de datos. La respuesta de @mpiktas es un tratamiento exhaustivo de las condiciones bajo las cuales los mínimos cuadrados son cada vez más óptimos. Me gustaría ir a otro lado y mostrar el caso más general cuando funcionan los mínimos cuadrados. Veamos la formulación más general de la ecuación de mínimos cuadrados:
Es solo un modelo lineal para la media condicional de la respuesta.
Tenga en cuenta que he rechazado el término de error. Si desea resumir la incertidumbre de , debe apelar al teorema del límite central. La clase más general de estimadores de mínimos cuadrados converge a normal cuando se cumple la condición de Lindeberg : resumida, la condición de Lindeberg para mínimos cuadrados requiere que la fracción del mayor residuo cuadrado a la suma de la suma de los residuos cuadrados debe ir a 0 como . Si su diseño seguirá muestreando residuos cada vez más grandes, entonces el experimento está "muerto en el agua".
Cuando se cumple la condición de Lindeberg, el parámetro de regresión está bien definido, y el estimador es un estimador imparcial que tiene una distribución aproximada conocida. Pueden existir estimadores más eficientes. En otros casos de heteroscedasticidad, o datos correlacionados, generalmente un estimador ponderado es más eficiente . Es por eso que nunca recomendaría usar los métodos ingenuos cuando hay mejores disponibles. ¡Pero a menudo no lo son!