Tengo una base de datos de mi aplicación de Facebook y estoy tratando de usar el aprendizaje automático para estimar la edad de los usuarios en función de los sitios de Facebook que les gustan.
Hay tres características cruciales de mi base de datos:
la distribución de edad en mi conjunto de entrenamiento (12k de usuarios en total) está sesgada hacia los usuarios más jóvenes (es decir, tengo 1157 usuarios de 27 años y 23 usuarios de 65 años);
muchos sitios no tienen más de 5 me gusta (he filtrado los sitios de FB con menos de 5 me gusta).
Hay muchas más características que muestras.
Entonces, mis preguntas son: ¿qué estrategia sugeriría para preparar los datos para un análisis posterior? ¿Debo realizar algún tipo de reducción de dimensionalidad? ¿Qué método de ML sería el más apropiado para usar en este caso?
Principalmente uso Python, por lo que las sugerencias específicas de Python serían muy apreciadas.