¿Regresión lineal multivariante vs red neuronal?

Parece que es posible obtener resultados similares a una red neuronal con una regresión lineal multivariada en algunos casos, y la regresión lineal multivariada es súper rápida y fácil.

¿En qué circunstancias pueden las redes neuronales dar mejores resultados que la regresión lineal multivariada?

regression multiple-regression neural-networks

— Hugh Perkins
fuente

Respuestas:

Las redes neuronales pueden en principio modelar no linealidades automáticamente (ver el teorema de aproximación universal ), que necesitaría modelar explícitamente usando transformaciones (splines, etc.) en regresión lineal.

La advertencia: la tentación de sobreajustar puede ser (incluso) más fuerte en las redes neuronales que en la regresión, ya que agregar capas ocultas o neuronas parece inofensivo. Por lo tanto, tenga mucho cuidado al mirar el rendimiento de predicción fuera de la muestra.

— S. Kolassa - Restablece a Monica
fuente

Okay. Supongo que una pregunta en mi mente es, ¿en qué medida puedo replicar un comportamiento similar al aumentar mis datos de entrada con términos cuadráticos y cúbicos?

— Hugh Perkins

En realidad, probablemente puede aproximar NNs con regresores transformados apropiadamente en una regresión lineal tan estrechamente como desee (y viceversa). Sin embargo, una mejor práctica que las cuadráticas y las cúbicas son splines. Recomiendo de todo corazón el libro de texto de Harrell "Estrategias de modelado de regresión".

— S. Kolassa - Restablece a Monica el

Okay. ¿Es razonable suponer que el tiempo de entrenamiento será más rápido para la regresión lineal en datos transformados, o los tiempos de entrenamiento serán aproximadamente similares? ¿La solución para la regresión lineal en datos transformados tendrá un único máximo global, o tendrá muchos mínimos locales en cuanto a redes neuronales? (Editar: supongo que no importa cómo se transformen las entradas, la solución a la regresión lineal es solo el pseudoinverso de la matriz de diseño multiplicado por algo, ¿y por lo tanto siempre es único o singular?)

— Hugh Perkins

Los tiempos de entrenamiento dependerán, por supuesto, de las dimensiones de entrada (pocas / muchas observaciones, pocos / muchos predictores). La regresión lineal implica una sola (pseudo-) inversa (sí, unicidad / singularidad incluso con regresiones transformadoras retenidas), mientras que las NN generalmente se entrenan de manera iterativa, pero las iteraciones no involucran inversiones de matriz, por lo que cada iteración es más rápida: normalmente Detenga el entrenamiento en función de algún criterio diseñado para evitar que se ajuste demasiado.

— S. Kolassa - Restablece a Monica el

@Yamcha: mi comprensión del teorema de aproximación universal es que la dimensionalidad en principio no importa. (Por supuesto, este es un resultado asintótico. Espero que necesite cantidades horrendas de datos para que el NN sea mejor que una regresión polinómica afinada. Comienza a sonar como Deep Learning ...)

— S. Kolassa - Restablece a Monica el

Mencionas regresión lineal. Esto está relacionado con la regresión logística , que tiene un algoritmo similar de optimización rápida. Si tiene límites en los valores objetivo, como con un problema de clasificación, puede ver la regresión logística como una generalización de la regresión lineal.

$0$

$x^3$ $1-1$ $x^3$

Una estrategia intermedia es elegir una gran cantidad de nodos aleatorios, similar a lo que sucede cuando inicializa una red neuronal, y fijar los pesos de entrada a ocultos. La optimización sobre los pesos * a salida se mantiene lineal. Esto se llama una máquina de aprendizaje extrema . Funciona al menos tan bien como la regresión logística original.

— Douglas Zare
fuente

"Una estrategia intermedia es elegir una gran cantidad de nodos aleatorios, similar a lo que sucede cuando se inicializa una red neuronal y se fijan los pesos de entrada a oculto. La optimización sobre los pesos de * a salida se mantiene lineal". => ¿quiere decir que habrá un máximo global único para la solución en este caso?

— Hugh Perkins

Para una elección aleatoria genérica de nodos ocultos aleatorios, sí.

— Douglas Zare

gran publicación - proporcionando contexto para [LR, LogR, NN, ELM]. Su comentario acerca de que LogR es un NN de capa de salto parece obvio después de ser señalado, pero es una buena idea.

— javadba

La Regresión lineal tiene como objetivo separar los datos que son linealmente separables, sí, puede usar polinomios adicionales de tercer grado, pero de esa manera indicó nuevamente algunas suposiciones sobre los datos que tiene desde que define la estructura de la función objetivo. En Neural Net. generalmente tiene una capa de entrada que crea los separadores lineales para los datos que tiene y la capa oculta Y las regiones que limitan algunas clases y la última capa O todas estas regiones. De esa manera, todos los datos que tiene se pueden clasificar de forma no lineal, también todos estos procesos van con pesos aprendidos internamente y funciones definidas. Además, aumentar el número de característica de Regresión lineal se opone a "Maldición de dimensionalidad". Además, algunas aplicaciones necesitan más resultados probabilísticos que números constantes como salida.

— erogol
fuente