Tengo un conjunto de datos de alrededor de 5000 características. Para esos datos, utilicé por primera vez la prueba Chi Square para la selección de funciones; después de eso, obtuve alrededor de 1500 variables que mostraron una relación significativa con la variable de respuesta.
Ahora necesito ajustar la regresión logística en eso. Estoy usando el paquete glmulti para R (el paquete glmulti proporciona una selección eficiente de subconjuntos para vlm) pero solo puede usar 30 funciones a la vez, de lo contrario su rendimiento disminuye ya que el número de filas en mi conjunto de datos es de alrededor de 20000.
¿Hay algún otro enfoque o técnica para resolver los problemas anteriores? Si sigo el método anterior, tomará demasiado tiempo ajustar el modelo.
sklearn
's LogisticRegression
y resuelve un problema de 4000 características, 20,000 filas en aproximadamente un minuto en mi computadora portátil.