Problemas de trampa variable ficticia


10

Estoy ejecutando una gran regresión OLS donde todas las variables independientes (alrededor de 400) son variables ficticias. Si se incluyen todos, existe una multicolinealidad perfecta (la trampa de variable ficticia), por lo que tengo que omitir una de las variables antes de ejecutar la regresión.

Mi primera pregunta es, ¿qué variable se debe omitir? He leído que es mejor omitir una variable que está presente en muchas de las observaciones en lugar de una que esté presente en solo unas pocas (por ejemplo, si casi todas las observaciones son "masculinas" o "femeninas" y solo unas pocas son "desconocidas" ", omita" masculino "o" femenino "). ¿Está esto justificado?

Después de ejecutar la regresión con una variable omitida, puedo estimar el valor del coeficiente de la variable omitida porque sé que la media general de todas mis variables independientes debería ser 0. Así que uso este hecho para cambiar los valores del coeficiente para todos los valores variables incluidas, y obtenga una estimación de la variable omitida. Mi siguiente pregunta es si existe alguna técnica similar que pueda usarse para estimar el error estándar para el valor del coeficiente de la variable omitida. Tal como está, tengo que volver a ejecutar la regresión omitiendo una variable diferente (e incluyendo la variable que había omitido en la primera regresión) para obtener una estimación de error estándar para el coeficiente de la variable originalmente omitida.

Finalmente, noto que las estimaciones de coeficientes que obtengo (después de volver a centrar alrededor de cero) varían ligeramente dependiendo de la variable que se omita. En teoría, ¿sería mejor ejecutar varias regresiones, cada una omitiendo una variable diferente, y luego promediar las estimaciones de coeficientes de todas las regresiones?


¿Podría aclarar qué quiere decir con "la media general de todas mis variables independientes debería ser 0" y cómo sabe esto?
onestop

Básicamente quiero evaluar todas las variables relativas al promedio (el promedio de todas las variables). Los coeficientes de la regresión son relativos a la variable omitida. Entonces, cuando reste la media de todos los coeficientes (incluido el coeficiente de la variable omitida de 0) de cada valor de coeficiente, los valores ajustados ahora promediarán 0, y cada valor de coeficiente puede verse como la distancia del promedio.
James Davison

Respuestas:


8

Debería obtener los "mismos" estimados sin importar qué variable omita; los coeficientes pueden ser diferentes, pero las estimaciones de cantidades o expectativas particulares deberían ser las mismas en todos los modelos.

En un caso simple, sea para hombres y 0 para mujeres. Luego, tenemos el modelo: Ahora, deje para las mujeres. Entonces El valor esperado de para las mujeres es y también . Para los hombres, esxi=1

E[yixi]=xiE[yixi=1]+(1xi)E[yixi=0]=E[yixi=0]+[E[yixi=1]E[yixi=0]]xi=β0+β1xi.
zi=1yβ0γ0+γ1β0+β1γ0
E[yizi]=ziE[yizi=1]+(1zi)E[yizi=0]=E[yizi=0]+[E[yizi=1]E[yizi=0]]zi=γ0+γ1zi.
yβ0γ0+γ1β0+β1y .γ0

Estos resultados muestran cómo se relacionan los coeficientes de los dos modelos. Por ejemplo, . Un ejercicio similar con sus datos debería mostrar que los coeficientes "diferentes" que obtiene son solo sumas y diferencias entre sí.β1=γ1


4

James, en primer lugar, ¿por qué el análisis de regresión, pero no ANOVA (hay muchos especialistas en este tipo de análisis que podrían ayudarte)? Las ventajas de ANOVA es que lo único que realmente le interesa son las diferencias en los medios de los diferentes grupos descritos por combinaciones de variables ficticias (categorías únicas o perfiles). Bueno, si estudia los impactos de cada una de las variables categóricas que incluye, también puede ejecutar la regresión.

Creo que el tipo de datos que tiene aquí se describe en el sentido de un análisis conjunto : muchos atributos del objeto (género, edad, educación, etc.) tienen varias categorías, por lo que omite el perfil más grande, no solo Una variable ficticia. Una práctica común es codificar las categorías dentro del atributo de la siguiente manera (este enlace puede ser útil, probablemente no haga un análisis conjunto aquí, pero la codificación es similar): suponga que tiene categorías (tres, como sugirió, masculino, femenino , desconocido), entonces, los dos primeros están codificados como de costumbre, usted incluye dos maniquíes (hombre, mujer), dando si es hombre, si es mujer y( 1 , 0 ) ( 0 , 1 ) ( - 1 , - 1 )n(1,0)(0,1)(1,1)si se desconoce De esta manera, los resultados se colocarán alrededor del término de intercepción. Sin embargo, puede codificar de una manera diferente, pero perderá la ventaja de interpretación mencionada. Para resumir, suelta una categoría de cada categoría y codifica sus observaciones de la manera descrita. Incluyes también el término de intercepción.

Bueno, omitir las categorías del perfil más grande me parece bueno, aunque no es tan importante, al menos no está vacío, creo. Dado que codifica las variables de manera específica, la significación estadística conjunta de las variables ficticias incluidas (tanto masculinas como femeninas, podría probarse mediante la prueba F) implica la importancia de la omitida.

Puede suceder que los resultados sean ligeramente diferentes, pero ¿puede ser la codificación incorrecta la que influya en esto?


Pido perdón si mi escritura no es clara, es una medianoche en Lituania.
Dmitrij Celov

¿Por qué es tu desconocido (-1, -1) en lugar de (0,0)?
siamii

1

Sin conocer la naturaleza exacta de su análisis, ¿ha considerado la codificación de efectos? De esta manera, cada variable representaría el efecto de ese rasgo / atributo frente a la gran media general en lugar de una categoría omitida particular. Creo que todavía le faltará un coeficiente para una de las categorías / atributos, al que le asigna un -1. Aún así, con tantos maniquíes, pensaría que la gran media haría un grupo de comparación más significativo que cualquier categoría omitida en particular.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.