Suponga que sus cuatro categorías son los colores de los ojos (código): marrón (1), azul (2), verde (3), avellana (4): por el momento, se identifica heterocromía, violeta, rojo, gris, etc.
De ninguna manera (que puedo imaginar actualmente) podríamos decir que verde marrón, o que avellana azul como implican nuestros códigos, a pesar de que y .= 2 × 3 = 3 × 1 4 = 2 × 2= 3 ×= 2 ×3 = 3 × 14 = 2 × 2
Por lo tanto (a menos que, por alguna razón , deseemos que dicho significado se deslice en nuestros análisis), necesitamos usar algún tipo de codificación. La codificación ficticia es un ejemplo, que elimina tales relaciones de las historias estadísticas que queremos contar sobre el color de los ojos. La codificación de efectos y la codificación de Heckman son otros ejemplos.
Actualización: su ejemplo de dos variables para cuatro categorías no coincide con mi uso comprensivo del término "código ficticio", que generalmente implica reemplazar categorías (digamos 4) con variables ficticias (clasificación de observaciones por categoría):k - 1kk - 1
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
Aquí la categoría 4 es la categoría de referencia, suponiendo que haya una constante en su modelo, como:
y= β0 0+ β1re1 + β2re2 + β3re3 + ε
donde es el valor medio de cuando categoría = 4, y los términos asociados con cada ficticio indican en qué cantidad cambia de para esa categoría. y β y β 0β0 0yβyβ0 0
Si no tiene un término constante ( ) en el modelo, entonces necesita un predictor "ficticio" más (quizás menos frecuentemente denominado "variables indicadoras"), en efecto, los dummies se comportan como la constante del modelo para cada categoría:β0 0
y= β1re1 + β2re2 + β3re3 + β4 4re4 + ε
Por lo tanto, esto trataría el tema de crear relaciones cuantitativas sin sentido entre los códigos de categoría que menciono al principio, pero ¿por qué no usar la codificación user12331 como sugiere? user12331-codificación candidato A:
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
tiene razón al señalar que uno puede representar 4 valores utilizando 2 variables binarias (es decir, dos bits). Desafortunadamente, un enfoque para esto (código1 para las categorías 1 y 2, y código2 para las categorías 3 y 4) deja la ambigüedad indicada por los signos de interrogación: ¿qué valores irían allí?
Bueno, ¿qué tal un segundo enfoque? Llámelo user12331-codificación candidato B:
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
¡Allí! No hay ambigüedad, ¿verdad? ¡Derecho! Desafortunadamente, todo lo que hace esta codificación es representar las cantidades numéricas 1–4 (o 0–3) en notación binaria , lo que deja intacto el problema de dar esas relaciones cuantitativas no deseadas a las categorías.
De ahí la necesidad de otro esquema de codificación.
β