¿Los datos de entrada correlacionados conducen a un sobreajuste con redes neuronales?

13

En mi opinión, los datos de entrada correlacionados deben conducir a un sobreajuste en las redes neuronales porque la red aprende la correlación, por ejemplo, el ruido en los datos.

¿Es esto correcto?

correlation neural-networks overfitting

— Peter234
fuente

11

En realidad no.

La pregunta como tal es un poco general y combina dos cosas que no están realmente relacionadas. El sobreajuste generalmente se entiende como la cualidad opuesta a ser una descripción generalizada; en el sentido de que una red sobreajustada (o sobreentrenada) tendrá menos poder de generalización. Esta calidad está determinada principalmente por la arquitectura de la red, la capacitación y el procedimiento de validación. Los datos y sus propiedades solo entran como "algo en lo que sucede el procedimiento de entrenamiento". Esto es más o menos "conocimiento de libros de texto"; puedes probar "Una introducción al aprendizaje estadístico" de James, Witten, Hastie y Tibshirani. O "Pattern Recognition" de Bishop (mi libro favorito sobre el tema general). O "Reconocimiento de patrones y aprendizaje automático", también de Bishop.

Para la correlación en sí: considere que el espacio de entrada tiene una determinada dimensión. No importa qué transformación use, la dimensionalidad seguirá siendo la misma: el álgebra lineal lo dice. En un caso, la base dada no estará correlacionada por completo; esto es lo que obtienes cuando des correlacionas las variables o simplemente aplicas PAT (transformación del eje principal). Toma cualquier libro de álgebra lineal para esto.

Dado que una red neuronal con una arquitectura adecuada puede modelar cualquier función (!), Puede suponer con seguridad que también podría modelar primero el PAT y luego hacer lo que sea que deba hacer, por ejemplo, clasificación, regresión, etc.

También podría considerar la correlación como una característica, que debería ser parte de la descripción de la red neuronal, ya que es una propiedad de los datos. La naturaleza de la correlación no es realmente importante, a menos que sea algo que no debería ser parte de los datos. En realidad, este sería un tema diferente: debe modelar o cuantificar algo como el ruido en la entrada y tenerlo en cuenta.

Entonces, en resumen no. Los datos correlacionados significan que debe trabajar más para hacer que el manejo de los datos sea técnicamente más simple y efectivo. Puede ocurrir un sobreajuste, pero no sucederá porque hay datos correlacionados.

— querubín
fuente

Lo siento, pero aún no entendí por qué. También mi duda es un poco genérica. Estaba buscando una respuesta a "¿Pueden los datos de entrada correlacionados ser perjudiciales para las redes neuronales?". Aquí usted afirma, "puede asumir con seguridad que también podría modelar primero PAT". Pero, ¿cómo estás haciendo esa suposición? Y luego mi pregunta de seguimiento es ¿qué sucede si la arquitectura neural no falla en modelar PAT?

— bytestorm

@bytestorm: tu primera pregunta es diferente a la original. La entrada correlacionada podría limitar el rendimiento de su ANN (así como para otros métodos). Pero no es una propiedad inherente de un ANN. En cuanto a la segunda pregunta, es menos una suposición, sino simplemente una explicación ejemplar de por qué las ANN podrían modelar PAT. En la práctica no lo haría así, ni recomendaría hacerlo.

— querubín

6

querubín es correcto en lo que respecta a su declaración sobre el ajuste excesivo. Sin embargo, creo que la discusión de características altamente correlacionadas y ANN simplifica demasiado el problema.

Sí, es cierto en teoría que un ANN puede aproximarse a cualquier función. Sin embargo, en la práctica no es una buena idea incluir numerosas características altamente correlacionadas. Hacerlo introducirá muchas redundancias dentro del modelo. La inclusión de tales redundancias introducirá complejidades innecesarias y, al hacerlo, podría aumentar el número de mínimos locales. Dado que la función de pérdida de un ANN no es inherentemente suave, introducir una rugosidad innecesaria no es una gran idea.

— Jacob H
fuente