Estoy construyendo un modelo y creo que es probable que la ubicación geográfica sea muy buena para predecir mi variable objetivo. Tengo el código postal de cada uno de mis usuarios. Sin embargo, no estoy completamente seguro de la mejor manera de incluir el código postal como una función de predicción en mi modelo. Aunque el código postal es un número, no significa nada si el número sube o baja. Podría binarizar todos los 30,000 códigos postales y luego incluirlos como características o nuevas columnas (por ejemplo, {user_1: {61822: 1, 62118: 0, 62444: 0, etc.}}. Sin embargo, esto parece que agregaría una tonelada de características para mi modelo.
¿Alguna idea sobre la mejor manera de manejar esta situación?