Tengo un conjunto de datos con 330 muestras y 27 características para cada muestra, con un problema de clase binaria para Regresión logística.
De acuerdo con la "regla si son diez", necesito al menos 10 eventos para que se incluya cada característica. Sin embargo, tengo un conjunto de datos desequilibrado, con 20% de clase positiva y 80% de clase negativa.
Eso me da solo 70 eventos, lo que permite incluir solo aproximadamente 7/8 características en el modelo logístico.
Me gustaría evaluar todas las características como predictores, no quiero seleccionar ninguna característica a mano.
Entonces, que sugieres? ¿Debo hacer todas las combinaciones posibles de 7 características? ¿Debo evaluar cada característica sola con un modelo de asociación y luego elegir solo las mejores para un modelo final?
También tengo curiosidad sobre el manejo de características categóricas y continuas, ¿puedo mezclarlas? Si tengo un [0-1] categórico y un [0-100] continuo, ¿debo normalizar?
Actualmente estoy trabajando con Python.
¡Muchas gracias por tu ayuda!