En pocas palabras, porque un nivel de su característica categórica (aquí ubicación) se convierte en el grupo de referencia durante la codificación ficticia para la regresión y es redundante. Estoy citando el formulario aquí "Una variable categórica de K categorías, o niveles, generalmente entra en una regresión como una secuencia de variables ficticias K-1. Esto equivale a una hipótesis lineal sobre las medias de nivel".
Esto ya se discutió en esta muy buena respuesta stats.stackexchange .
Yandex me dijo que hay un curso avanzado en Coursera que cubre este tema con más detalles si aún tiene dudas, consulte aquí . Tenga en cuenta que siempre puede auditar el contenido del curso de forma gratuita. ;-)
Otra buena publicación si desea una explicación exhaustiva con muchos ejemplos con perspectiva estadística y que no se limite solo a la codificación ficticia, consulte esto en UCLA (en R)
Tenga en cuenta que si está usando pandas.get_dummies
, hay un parámetro, es decir, drop_first
para obtener k-1 dummies de k niveles categóricos eliminando el primer nivel. Tenga en cuenta default = False
que significa que la referencia no se descarta y que se crean k dummies a partir de k niveles categóricos.