Actualmente estoy trabajando en un modelo de regresión logística para genómica. Uno de los campos de entrada que quiero incluir como covariable es genes
. Hay alrededor de 24,000 genes conocidos. Hay muchas características con este nivel de variabilidad en biología computacional y se necesitan cientos de miles de muestras.
- Si yo
LabelEncoder()
esos genes de 24K - y luego
OneHotEncoder()
ellos ...
¿24,000 columnas harán que mis tiempos de entrenamiento de keras sean irrazonables para una CPU i7 quad-core de 2.2 GHz?
Si es así, ¿hay un enfoque diferente para la codificación que pueda adoptar con esto?
¿De alguna manera debería intentar dedicar una capa de mi modelo a esta función?
¿Esto significa que necesito nodos de entrada de 24K?