Digamos que quiero crear un clasificador logístico para una película M. Mis características serían algo como la edad de la persona, el género, la ocupación, la ubicación. Entonces, el conjunto de entrenamiento sería algo así como:
- Edad Género Ocupación Ubicación Me gusta (1) / No me gusta (0)
- 23 M Software EE. UU. 1
- 24 F Doctor Reino Unido 0
y así sucesivamente ... Ahora mi pregunta es cómo debo escalar y representar mis características. Una forma en la que pensé: dividir la edad como grupos de edad, entonces 18-25, 25-35, 35-arriba, Género como M, F, Ubicación como EE. UU., Reino Unido, Otros. Ahora cree una función binaria para todos estos valores, por lo tanto, age tendrá 3 funciones binarias, cada una correspondiente a un grupo de edad, y así sucesivamente. Entonces, un hombre de 28 años de EE. UU. Se representaría como 010 10100 (010-> Grupo de edad 25-35, 10 -> Hombre, 100 -> EE. UU.)
¿Cuál podría ser la mejor manera de representar características aquí? Además, me di cuenta en algunos e.gs. de sklearn que todas las características han sido escaladas / normalizadas de alguna manera, por ejemplo, el género está representado por dos valores, 0.0045 y -.0.0045 para hombres y mujeres. No tengo idea de cómo hacer escala / mormalización como esta?