¿Cuáles son algunas técnicas útiles de aumento de datos para redes neuronales convolucionales profundas?

Antecedentes: recientemente entendí en un nivel más profundo la importancia del aumento de datos al entrenar redes neuronales convolucionales después de ver esta excelente charla de Geoffrey Hinton .

Explica que las redes neuronales convolucionales de la generación actual no pueden generalizar el marco de referencia del objeto bajo prueba, lo que dificulta que una red entienda realmente que las imágenes reflejadas de un objeto son las mismas.

Se han realizado algunas investigaciones para tratar de remediar esto. Este es uno de los muchos ejemplos . Creo que esto ayuda a establecer cuán crítico es el aumento de datos hoy en día al entrenar redes neuronales convolucionales.

Las técnicas de aumento de datos rara vez se comparan entre sí. Por lo tanto:

Preguntas:

¿Cuáles son algunos documentos donde los practicantes informaron un rendimiento excepcionalmente mejor?
¿Cuáles son algunas técnicas de aumento de datos que le han resultado útiles?

machine-learning deep-learning

— rhadar
fuente

Hola @rhadar, ¿has tenido alguna noticia? Gracias :)

— nullgeppetto

Segundo. 1: Aumento de datos Dado que las redes profundas necesitan ser entrenadas en una gran cantidad de imágenes de entrenamiento para lograr un rendimiento satisfactorio, si el conjunto de datos de la imagen original contiene imágenes de entrenamiento limitadas, es mejor hacer un aumento de datos para aumentar el rendimiento. Además, el aumento de datos se convierte en lo que debe hacer al entrenar una red profunda.

Hay muchas formas de aumentar los datos, como el popular cambio horizontal, los cultivos aleatorios y la fluctuación de color. Además,
puede probar combinaciones de múltiples procesamientos diferentes, por ejemplo,
haciendo la rotación y escalado aleatorio al mismo tiempo. Además,
puede intentar aumentar la saturación y el valor (componentes S y V del
espacio de color HSV) de todos los píxeles a una potencia entre 0.25 y 4 (lo mismo
para todos los píxeles dentro de un parche), multiplique estos valores por un factor
entre 0.7 y 1.4, y agregue un valor entre -0.1 y 0.1.
Además, puede agregar un valor entre [-0.1, 0.1] al tono (
componente H del HSV) de todos los píxeles en la imagen / parche.

Krizhevsky y col. 1 propuesto PCA de fantasía cuando la formación de la famosa Alex-Net en 2012. altera Fantasía PCA las intensidades de las RGB
canales de imágenes de entrenamiento. En la práctica, primero puede realizar PCA en el conjunto de valores de píxeles RGB a lo largo de sus imágenes de entrenamiento. Y
luego, para cada imagen de entrenamiento, simplemente agregue la siguiente cantidad a
cada píxel de imagen RGB (es decir, I_ {xy} = [I_ {xy} ^ R, I_ {xy} ^ G, I_ {xy} ^ B] ^ T ):
[bf {p} _1, bf {p} _2, bf {p} _3] [alpha_1 lambda_1, alpha_2 lambda_2, alpha_3
lambda_3] ^ T donde, bf {p} _i y lambda_i son el i-th eigenvector y
eigenvalue de la matriz de covarianza 3x3 de los valores de píxel RGB,
respectivamente, y alpha_i es una variable aleatoria extraída de un gaussiano
con media cero y desviación estándar 0.1. Tenga en cuenta que cada
alpha_i se dibuja solo una vez para todos los píxeles de una
imagen de entrenamiento en particular hasta que esa imagen se vuelva a usar para entrenar. Es
decir, cuando el modelo se encuentre con la misma imagen de entrenamiento nuevamente,
producirá aleatoriamente otro alpha_i para el aumento de datos. En 1 ,
afirmaron que "PCA elegante podría capturar aproximadamente una
propiedad importante de las imágenes naturales, a saber, que la identidad del objeto es invariable a los cambios en la intensidad y el color de la iluminación". Para el
rendimiento de la clasificación, este esquema redujo la tasa de error de top-1
en más del 1% en la competencia de ImageNet 2012.

(Fuente: Debe conocer consejos / trucos en redes neuronales profundas (por Xiu-Shen Wei))

— Patrick Conway
fuente