Regularización norma y estudio empírico norma

Hay muchos métodos para llevar a cabo la regularización - , y regularización basada norma, por ejemplo. Según Friedman Hastie & Tibsharani , el mejor regularizador depende del problema: a saber, la naturaleza de la verdadera función objetivo, la base particular utilizada, la relación señal / ruido y el tamaño de la muestra. $L_0$ $L_1$ $L_2$

¿Existe alguna investigación empírica que compare métodos y desempeño de varios métodos de regularización?

r regression machine-learning regularization

— Ram Ahluwalia
fuente

Los tres autores están en Stanford. ¿Por qué no preguntarle a uno de ellos directamente? Rob Tibshirani es muy accesible y también Jerry Friedman. Friedman realizó muchas investigaciones originales sobre regresión regularizada. Entonces él puede ser la mejor opción.

— Michael R. Chernick

Por supuesto que no puedo decir que le di la respuesta. Pero dirigirlo a la mejor persona para responder la pregunta parece más que un simple comentario que generalmente intenta aclarar. A menudo me pregunto por qué las personas siempre hacen sus preguntas aquí cuando pueden ir directamente a la fuente. Estoy casi seguro de que Friedman puede responderlo y tiene mucho sentido ir a la fuente, especialmente cuando se trata de algo escrito en su libro. Podría ir a la fuente para obtener la respuesta y luego presentarla aquí.

— Michael R. Chernick

La gente se siente intimidada por el estado de la fuente como autoridad, asume que la fuente está demasiado ocupada para tratar su (menor) opinión (sin importancia), tiene miedo de obtener una grosería "¿por qué me molestas con esto?" respuesta ... Es mucho más fácil ir a la fuente si tú también eres una fuente, quizás para otras cosas, en el campo.

— jbowman

@jbowman Sí. Entiendo que. Pero notará que conozco a Tibshirani y Friedman de manera personal y le aseguré al Op que su temor es infundado con estos autores. No mencioné a Hastie porque no lo conozco tan bien como los demás.,

— Michael R. Chernick

@chl No creo que podamos esperar de manera realista verlos unirse al sitio. Requiere demasiado tiempo para profesores ocupados, con algunas excepciones como Frank Harrell y posiblemente otros que usan seudónimos. Pero sí creo que se tomarán el tiempo para responder preguntas específicas que se les envíen directamente.

— Michael R. Chernick

Respuestas:

Consideremos un modelo lineal penalizado.

La penalización no se usa mucho y a menudo se reemplaza por la norma que es matemáticamente más flexible. $L_0$ $L_1$

La regularización tiene la propiedad de construir un modelo disperso. Esto significa que solo unas pocas variables tendrán un coeficiente de regresión no 0. Se utiliza particularmente si supone que solo unas pocas variables tienen un impacto real en las variables de salida. Si hay variables muy correlacionadas, solo se seleccionará una de ellas con un coeficiente distinto de 0. $L_1$

La penalización es como si agrega un valor en la diagonal de la matriz de entrada. Se puede usar, por ejemplo, en situaciones donde el número de variables es mayor que el número de muestras. Para obtener una matriz cuadrada. Con la penalización de la norma , todas las variables tienen un coeficiente de regresión distinto de cero. $L_2$ $\lambda$ $L_2$

— Donbeo
fuente

Como contribución adicional, específicamente con respecto a la norma , no sé si diría que es porque no es "matemáticamente flexible"; Creo que se debe principalmente a que la optimización es prohibitivamente costosa (hay formas de intentar hacerlo, pero no creo que nada funcione en general). Sé de una figura de "gran queso" que trabaja en selección variable que dijo que le encantaría usar una penalización y que el cálculo es la única razón por la que no lo hace.

L_{0}

$L_0$

L_{0}

$L_0$

— chico

Algunas adiciones a la respuesta de @Donbeo

1) La norma L0 no es una norma en el sentido verdadero. Es el número de entradas distintas de cero en un vector. Esta norma claramente no es una norma convexa y no es una norma en el sentido verdadero. Por lo tanto, es posible que vea términos como L0 'norma'. Se convierte en un problema combinatorio y, por lo tanto, es NP difícil.

2) La norma L1 proporciona una solución dispersa (busque el LASSO). Hay resultados fundamentales de Candes, Donoho, etc., que muestran que si la verdadera solución es realmente escasa, los métodos penalizados con L1 la recuperarán. Si la solución subyacente no es escasa, no obtendrá la solución subyacente en los casos en que p >> n. Hay buenos resultados que muestran que el lazo es consistente.

3) Existen métodos como la red elástica de Zhou y Hastie que combinan soluciones penalizadas L2 y L1.

— Sid
fuente