Me pregunto si hay alguna heurística en el número de características versus el número de observaciones. Obviamente, si un número de características es igual al número de observaciones, el modelo se sobreajustará. Mediante el uso de métodos dispersos (LASSO, red elástica) podemos eliminar varias características para reducir el modelo.
Mi pregunta es (teóricamente): antes de usar las métricas para evaluar la selección del modelo, ¿hay alguna observación empírica que relacione el número óptimo de características con el número de observaciones?
Por ejemplo: para un problema de clasificación binaria con 20 instancias en cada clase, ¿hay algún límite superior en la cantidad de características a usar?