¿Es posible dar una estimación general sobre el tamaño de las redes neuronales que se pueden entrenar en GPU de grado de consumo común ? Por ejemplo:
El papel de Aparición de locomoción (refuerzo) entrena una red utilizando la activación en tándem de las neuronas. Tienen un NN de 3 capas con 300,200,100 unidades para el Caminante Planar . Pero no informan el hardware y el tiempo ...
¿Pero podría desarrollarse una regla general? También solo se basa en los resultados empíricos actuales, por ejemplo:
Las unidades X que utilizan la activación sigmoidea pueden ejecutar iteraciones de aprendizaje Y por hora en un 1060.
O el uso de la función de activación a en lugar de b provoca una disminución del rendimiento en veces.
Si un estudiante / investigador / mente curiosa va a comprar una GPU para jugar con estas redes, ¿cómo decides qué obtienes? Aparentemente, un 1060 es la opción de presupuesto de nivel de entrada, pero ¿cómo puede evaluar si no es más inteligente obtener un netbook malo en lugar de construir un escritorio de alta potencia y gastar los $ ahorrados en infraestructura de nube a pedido?
Motivación para la pregunta: acabo de comprar un 1060 y (inteligente, para hacer la pregunta después, eh) me pregunto si debería haberme quedado con el $ y haber creado una cuenta de Google Cloud. Y si puedo ejecutar mi simulación de tesis de maestría en la GPU.