Sé que una arquitectura de red neuronal se basa principalmente en el problema en sí y los tipos de entrada / salida, pero aún así, siempre hay un "cuadrado" cuando se comienza a construir uno. Entonces, mi pregunta es: dado un conjunto de datos de entrada de MxN (M es el número de registros, N es el número de características) y una C posibles clases de salida, ¿hay una regla general sobre cuántas capas / unidades deberíamos comenzar?