Estoy ejecutando una gran regresión OLS donde todas las variables independientes (alrededor de 400) son variables ficticias. Si se incluyen todos, existe una multicolinealidad perfecta (la trampa de variable ficticia), por lo que tengo que omitir una de las variables antes de ejecutar la regresión.
Mi primera pregunta es, ¿qué variable se debe omitir? He leído que es mejor omitir una variable que está presente en muchas de las observaciones en lugar de una que esté presente en solo unas pocas (por ejemplo, si casi todas las observaciones son "masculinas" o "femeninas" y solo unas pocas son "desconocidas" ", omita" masculino "o" femenino "). ¿Está esto justificado?
Después de ejecutar la regresión con una variable omitida, puedo estimar el valor del coeficiente de la variable omitida porque sé que la media general de todas mis variables independientes debería ser 0. Así que uso este hecho para cambiar los valores del coeficiente para todos los valores variables incluidas, y obtenga una estimación de la variable omitida. Mi siguiente pregunta es si existe alguna técnica similar que pueda usarse para estimar el error estándar para el valor del coeficiente de la variable omitida. Tal como está, tengo que volver a ejecutar la regresión omitiendo una variable diferente (e incluyendo la variable que había omitido en la primera regresión) para obtener una estimación de error estándar para el coeficiente de la variable originalmente omitida.
Finalmente, noto que las estimaciones de coeficientes que obtengo (después de volver a centrar alrededor de cero) varían ligeramente dependiendo de la variable que se omita. En teoría, ¿sería mejor ejecutar varias regresiones, cada una omitiendo una variable diferente, y luego promediar las estimaciones de coeficientes de todas las regresiones?