Elección del método de regularización en redes neuronales


9

Al entrenar redes neuronales, hay al menos 4 formas de regularizar la red:

  • L1 Regularización
  • Regularización L2
  • Abandonar
  • Normalización de lote

    Además, por supuesto, otras cosas como compartir el peso y reducir el número de conexiones, lo que podría no ser regularización en el sentido más estricto.

    Pero, ¿cómo elegir uno de esos métodos de regularización para usar? ¿Existe una forma más basada en principios que "simplemente probar todo y ver qué funciona"?


  • 3
    ¿Las redes neuronales tienen principios? El principio para los métodos de caja negra es probar todo y ver qué funciona
    Darrin Thomas

    Y esto es bastante triste, ¿no lo encuentras?
    Alex

    Respuestas:


    6

    No existen principios sólidos y bien documentados que lo ayuden a decidir entre los tipos de regularización en las redes neuronales. Incluso puede combinar técnicas de regularización, no tiene que elegir solo una.

    Un enfoque viable puede basarse en la experiencia y en seguir la literatura y los resultados de otras personas para ver qué dio buenos resultados en diferentes dominios problemáticos. Teniendo esto en cuenta, la deserción ha demostrado ser muy exitosa para una amplia gama de problemas, y probablemente pueda considerarla una buena primera opción, casi independientemente de lo que esté intentando.

    También, a veces, simplemente elegir una opción con la que esté familiarizado puede ayudar: trabajar con técnicas que entienda y con las que tenga experiencia puede obtener mejores resultados que probar una gran bolsa de opciones diferentes donde no está seguro de qué orden de magnitud probar para un parámetro . Una cuestión clave es que las técnicas pueden interactuar con otros parámetros de la red; por ejemplo, es posible que desee aumentar el tamaño de las capas con deserción dependiendo del porcentaje de deserción.

    Finalmente, puede que no importe mucho qué técnicas de regularización esté utilizando, solo que comprenda su problema y modele lo suficientemente bien como para detectar cuándo está sobreajustado y podría funcionar con una mayor regularización. O viceversa, identifique cuándo está subadaptando y que debe reducir la regularización.


    3

    Método de regularización.

    Para las siguientes 4 técnicas, la regularización L1 y la regularización L2 son innecesarias para decir que deben ser un método de regularización. Reducen el peso. L1 se concentraría en reducir una menor cantidad de peso si los pesos tienen mayor importancia.

    El abandono evita el sobreajuste al abandonar temporalmente las neuronas. Eventualmente, calcula todos los pesos como un promedio para que el peso no sea demasiado grande para una neurona en particular y, por lo tanto, es un método de regularización.

    La normalización de lotes no debe ser un método de regularización porque su objetivo principal es acelerar el entrenamiento seleccionando un lote y obligando a que el peso se distribuya cerca de 0, ni demasiado grande ni demasiado pequeño.

    Eligiéndolo

    Para mí, el mini lote es imprescindible porque puede acelerar el proceso y mejorar el rendimiento de la red en todo momento.

    L1 y L2 son similares y preferiría L1 en una red pequeña.

    Idealmente, la deserción debería aplicarse si hay un problema de gran variación o sobreajuste.

    Por último, pero no menos importante, estoy de acuerdo con Neil Slater en que depende de la situación y que nunca habrá una solución óptima.

    Le recomiendo que lea esto para obtener más información. Este es un muy buen material. http://neuralnetworksanddeeplearning.com/chap3.html


    -1

    Mire esas opciones algorítmicas como hiperparámetros adicionales y optimícelos de la misma manera que lo hace con sus otros hiperparámetros. Sin embargo, esto normalmente requerirá más datos.


    2
    Hola Alex, bienvenido a DS.SE. Este es un sitio de preguntas y respuestas que tiene las respuestas más ricas flotando a la cima a través de la votación. Alguien lo ha rechazado, tal vez porque su respuesta es bastante breve y, en general, explicar la solución (por ejemplo) no explica los detalles de los hiperparámetros, un término que no se usó en el póster original.
    Marcus D
    Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
    Licensed under cc by-sa 3.0 with attribution required.