Actualmente estoy trabajando en un modelo de regresión logística para genómica. Uno de los campos de entrada que quiero incluir como covariable es genes. Hay alrededor de 24,000 genes conocidos. Hay muchas características con este nivel de variabilidad en biología computacional y se necesitan cientos de miles de muestras.
- Si yo
LabelEncoder()esos genes de 24K - y luego
OneHotEncoder()ellos ...
¿24,000 columnas harán que mis tiempos de entrenamiento de keras sean irrazonables para una CPU i7 quad-core de 2.2 GHz?
Si es así, ¿hay un enfoque diferente para la codificación que pueda adoptar con esto?
¿De alguna manera debería intentar dedicar una capa de mi modelo a esta función?
¿Esto significa que necesito nodos de entrada de 24K?