Soy un estudiante de economía con algo de experiencia con econometría y R. Me gustaría saber si alguna vez hay una situación en la que deberíamos incluir una variable en una regresión a pesar de que no sea estadísticamente significativa.
Soy un estudiante de economía con algo de experiencia con econometría y R. Me gustaría saber si alguna vez hay una situación en la que deberíamos incluir una variable en una regresión a pesar de que no sea estadísticamente significativa.
Respuestas:
¡Sí!
Que un coeficiente sea estadísticamente indistinguible de cero no implica que el coeficiente sea realmente cero, que el coeficiente sea irrelevante. Que un efecto no pase algún límite arbitrario para la significación estadística no implica que uno no deba intentar controlarlo.
En términos generales, el problema en cuestión y el diseño de su investigación deben guiar qué incluir como regresores.
Y no tome esto como una lista exhaustiva. No es difícil encontrar toneladas más ...
Una situación en la que esto ocurre a menudo es una regresión con efectos fijos .
Digamos que tiene datos de panel y desea estimar en el modelo:
Estimar este modelo con mínimos cuadrados ordinarios donde es tratado como efectos fijos es equivalente a ejecutar mínimos cuadrados ordinarios con una variable indicadora para cada individuo i .
De todos modos, el punto es que las variables (es decir, los coeficientes en las variables indicadoras) a menudo se estiman mal. Cualquier efectos fijos individuales u i es a menudo estadísticamente insignificante. Pero aún incluye todas las variables indicadoras en la regresión si tiene en cuenta los efectos fijos.
(Tenga en cuenta que la mayoría de los paquetes de estadísticas ni siquiera le darán los errores estándar para los efectos fijos individuales cuando utilice los métodos integrados. Realmente no le importa la importancia de los efectos fijos individuales. Probablemente le importe su importancia colectiva .)
Si está ajustando un polinomio de grado a alguna curva, casi siempre incluye términos de polinomios de orden inferior.
Por ejemplo, si estuviera ajustando un polinomio de segundo orden, ejecutaría:
Por lo general, sería bastante extraño forzar a y, en su lugar, ejecutar y i = b 0 + b 2 x 2 i + ϵ i
pero los estudiantes de mecánica newtoniana podrán imaginar excepciones.
Digamos que estaba estimando un modelo AR (p), también incluiría los términos de orden inferior. Por ejemplo, para un AR (2) ejecutarías:
Y sería extraño ejecutar:
Como @NickCox menciona, los términos y sin de manera similar tienden a ir juntos. Para obtener más información al respecto, consulte, por ejemplo, este documento .
Desea incluir variables del lado derecho cuando haya buenas razones teóricas para hacerlo.
Y como otras respuestas aquí y en StackExchange discuten, la selección de variables paso a paso puede crear numerosos problemas estadísticos.
También es importante distinguir entre:
En el último caso, es problemático argumentar que el coeficiente no importa. Simplemente puede ser mal medido.
Sí hay. Cualquier variable que pueda correlacionarse con su variable de respuesta de manera significativa, incluso a un nivel estadísticamente insignificante, podría confundir su regresión si no se incluye. Esto se conoce como subespecificación y conduce a estimaciones de parámetros que no son tan precisas como podrían ser de otro modo.
https://onlinecourses.science.psu.edu/stat501/node/328
De lo anterior:
Un modelo de regresión está subespecificado (resultado 2) si a la ecuación de regresión le faltan una o más variables predictoras importantes. Esta situación es quizás el peor de los casos, porque un modelo poco especificado produce coeficientes de regresión sesgados y predicciones sesgadas de la respuesta. Es decir, al usar el modelo, subestimaríamos o sobreestimaríamos constantemente las pendientes de la población y las medias de la población. Para empeorar las cosas, el error cuadrático medio MSE tiende a sobreestimar σ², lo que genera intervalos de confianza más amplios de lo que debería.
Por lo general, no incluye ni excluye variables para la regresión lineal debido a su importancia. Los incluye porque supone que las variables seleccionadas son predictores (buenos) de los criterios de regresión. En otras palabras, la selección del predictor se basa en la teoría.
La insignificancia estadística en la regresión lineal puede significar dos cosas (de las cuales sé):
Una razón válida para excluir predictores insignificantes es que está buscando el subconjunto más pequeño de predictores que expliquen la varianza de los criterios o la mayor parte. Si lo has encontrado revisa tu teoría.
En econometría, esto sucede de izquierda a derecha. Por ejemplo, si está utilizando dummies trimestrales de estacionalidad Q2, Q3 y Q4, sucede a menudo que, como grupo, son significativos, pero algunos de ellos no lo son individualmente. En este caso, generalmente los guarda todos.
ACTUALIZACIÓN: Otro ejemplo común es el pronóstico. La econometría generalmente se enseña desde la perspectiva de inferencia en los departamentos de economía. Desde el punto de vista de la inferencia, se presta mucha atención a los valores p y al significado, porque está tratando de comprender qué causa qué, etc. En el pronóstico, no hay mucho énfasis en estas cosas, porque lo único que le importa es qué tan bien el modelo puede pronosticar la variable de interés.
Esto es similar a las aplicaciones de aprendizaje automático, por cierto, que están llegando a la economía recientemente. Puede tener un modelo con todas las variables significativas que no pronostique bien. En ML a menudo se asocia con el llamado "sobre ajuste". Obviamente, hay muy poco uso de ese modelo en la predicción.
Estás haciendo dos preguntas diferentes:
Editar: esto era cierto sobre la publicación original, pero podría no serlo después de las ediciones.
Con respecto al primer trimestre, creo que está al borde de ser demasiado amplio. Hay muchas respuestas posibles, algunas ya proporcionadas. Un ejemplo más es cuando se construyen modelos para el pronóstico (consulte la fuente citada a continuación para obtener una explicación).
Con respecto al segundo trimestre, la significación estadística no es un criterio sólido para la construcción de modelos. Rob J. Hyndman escribe lo siguiente en su blog "Pruebas estadísticas para la selección de variables" :
La significación estadística no suele ser una buena base para determinar si una variable debe incluirse en un modelo, a pesar del hecho de que muchas personas que deberían conocerlas mejor las usan exactamente para este propósito. <...> Las pruebas estadísticas se diseñaron para probar hipótesis, no seleccionar variables.
También tenga en cuenta que a menudo puede encontrar algunas variables que son estadísticamente significativas por pura casualidad (la posibilidad está controlada por su elección del nivel de significancia). La observación de que una variable es estadísticamente significativa no es suficiente para concluir que la variable pertenece al modelo.
Agregaré otro "sí". Siempre me han enseñado, y he tratado de transmitirlo, que la consideración principal en la elección de covariables es el conocimiento del dominio, no las estadísticas. En bioestadística, por ejemplo, si estoy modelando algún resultado de salud en individuos, no importa lo que diga la regresión, necesitarás algunos argumentos muy buenos para que no incluya la edad, la raza y el sexo en el modelo.
También depende del propósito de su modelo. Si el propósito es obtener una mejor comprensión de qué factores están más asociados con su resultado, entonces construir un modelo parsimonioso tiene algunas virtudes. Si te preocupa la predicción, y no tanto la comprensión, entonces eliminar las covariables puede ser una preocupación menor.
(Finalmente, si planea utilizar estadísticas para la selección de variables, consulte lo que Frank Harrell tiene que decir sobre el tema: http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ , y su libro Estrategias de modelado de regresión . Brevemente, cuando ha utilizado estrategias basadas en estadísticas escalonadas o similares para elegir los mejores predictores, entonces cualquier prueba de "¿son estos buenos predictores?" está terriblemente sesgada, por supuesto que " Son buenos predictores, los ha elegido sobre esa base, por lo que los valores de p para esos predictores son falsamente bajos).
Lo único que el resultado de la "insignificancia estadística" realmente dice es que, en el nivel seleccionado de error de Tipo I, ni siquiera podemos decir si el efecto del regresor en la variable dependiente es positivo o negativo (ver esta publicación).
Entonces, si mantenemos este regresor, cualquier discusión sobre su propio efecto sobre la variable dependiente no tiene evidencia estadística que lo respalde.
Pero esta falla de estimación no dice que el regresor no pertenece a la relación estructural, solo dice que con el conjunto de datos específico no pudimos determinar con cierta certeza el signo de su coeficiente.
Entonces, en principio, si hay argumentos teóricos que respalden su presencia, se debe mantener el regresor.
Otras respuestas aquí proporcionaron modelos / situaciones específicas para los cuales dichos regresores se mantienen en la especificación, por ejemplo, la respuesta menciona el modelo de datos del panel de efectos fijos.
Puede incluir una variable de particular interés si es el foco de la investigación, incluso si no es estadísticamente significativa. Además, en bioestadística, la significación clínica es a menudo diferente de la significación estadística.