¿Se prefiere siempre la regularización de red elástica a Lasso & Ridge, ya que parece resolver los inconvenientes de estos métodos? ¿Cuál es la intuición y cuál es la matemática detrás de la red elástica?
¿Se prefiere siempre la regularización de red elástica a Lasso & Ridge, ya que parece resolver los inconvenientes de estos métodos? ¿Cuál es la intuición y cuál es la matemática detrás de la red elástica?
Respuestas:
Sí, la red elástica siempre es preferible a la regresión de lazo y cresta porque resuelve las limitaciones de ambos métodos, al tiempo que incluye cada uno como casos especiales. Entonces, si la solución de cresta o lazo es, de hecho, la mejor, entonces cualquier buena rutina de selección de modelo lo identificará como parte del proceso de modelado.
Los comentarios a mi publicación han señalado que las ventajas de la red elástica no están sin reservas. Persisto en mi creencia de que la generalidad de la regresión red elástica sigue siendo preferible a cualquiera de o regularización por sí sola. Específicamente, creo que los puntos de disputa entre mí y los demás están directamente vinculados a los supuestos que estamos dispuestos a hacer sobre el proceso de modelado. En presencia de un sólido conocimiento sobre los datos subyacentes, se preferirán algunos métodos a otros. Sin embargo, mi preferencia por la red elástica se basa en mi escepticismo de que uno sabrá con confianza que o es el modelo verdadero.
Esto es algo circular. Perdóneme si esto es algo simplista, pero si sabe que LASSO (cresta) es la mejor solución, entonces no se preguntará cómo modelarlo adecuadamente; solo se ajustará a un modelo LASSO (cresta). Si está absolutamente seguro de que la respuesta correcta es la regresión LASSO (cresta), entonces está claramente convencido de que no habría razón para perder el tiempo ajustando una red elástica. Pero si está un poco menos seguro de si LASSO (cresta) es la forma correcta de proceder, creo que tiene sentido estimar un modelo más flexible y evaluar cuán fuertemente los datos respaldan la creencia anterior.
Esto también es cierto, pero creo que es circular por una razón similar: si ha estimado una solución óptima y encuentra que entonces ese es el modelo que admiten los datos. Por un lado, sí, su modelo estimado no es el modelo verdadero, pero debo preguntarme cómo se podría saber que el modelo verdadero es (o ) antes de cualquier estimación del modelo. Puede haber dominios en los que tenga este tipo de conocimiento previo, pero mi trabajo profesional no es uno de ellos.
Esto solo es relevante si tiene limitaciones de tiempo / computadora; de lo contrario es solo una molestia. GLMNET es el algoritmo estándar de oro para estimar soluciones netas elásticas. El usuario proporciona algún valor de alfa, y utiliza las propiedades de ruta de la solución de regularización para estimar rápidamente una familia de modelos para una variedad de valores de la magnitud de penalización , y a menudo puede estimar esta familia de soluciones más rápidamente que estimar solo Una solución para un valor específico . Entonces, sí, usar GLMNET lo consigna al dominio del uso de métodos de estilo de cuadrícula (iterar sobre algunos valores de y dejar que GLMNET pruebe una variedad de s), pero es bastante rápido.
Esto es cierto, pero en el paso en el que uno está contemplando qué método usar, uno no sabrá cuál de las redes elásticas, crestas o LASSO es la mejor. Si uno razona que la mejor solución debe ser LASSO o la regresión de cresta, entonces estamos en el dominio del reclamo (1). Si todavía no estamos seguros de cuál es el mejor, entonces podemos probar las soluciones LASSO, crestas y redes elásticas, y elegir un modelo final en ese momento (o, si es un académico, simplemente escriba su artículo sobre los tres ) Esta situación de incertidumbre previa nos colocará en el dominio de la reivindicación (2), donde el modelo verdadero es LASSO / ridge pero no lo sabíamos con anticipación, y seleccionamos accidentalmente el modelo incorrecto debido a hiperparámetros mal identificados, o la red elástica es en realidad la mejor solución.
La validación adecuada del modelo es una parte integral de cualquier empresa de aprendizaje automático. La validación del modelo generalmente también es un paso costoso, por lo que uno buscaría minimizar las ineficiencias aquí: si una de esas ineficiencias está probando innecesariamente los valores que se sabe que son inútiles, entonces una sugerencia podría ser hacerlo. Sí, por supuesto, haga eso, si se siente cómodo con la fuerte declaración que está haciendo sobre cómo se organizan sus datos, pero volvemos al territorio de la reclamación (1) y la reclamación (2).
Sugiero leer la literatura sobre estos métodos, comenzando con el artículo original sobre la red elástica. El artículo desarrolla la intuición y las matemáticas, y es altamente legible. Reproducirlo aquí solo iría en detrimento de la explicación de los autores. Pero el resumen de alto nivel es que la red elástica es una suma convexa de penalizaciones de cresta y lazo, por lo que la función objetivo para un modelo de error gaussiano se parece a un error cuadrático
para
Hui Zou y Trevor Hastie. " Selección de Regularización y variables a través de la red elástica ." JR Estadística. Soc., Vol 67 (2005), Parte 2., pp. 301-320.
Richard Hardy señala que esta se desarrolla con más detalle en Hastie et al. "Los elementos del aprendizaje estadístico" capítulos 3 y 18.
Esta es una pregunta que me plantearon en los comentarios:
Permítanme sugerir un argumento más en contra de su punto de vista de que la red elástica es uniformemente mejor que el lazo o la cresta solos. Imagine que agregamos otra penalización a la función de costo neto elástico, por ejemplo, un costo , con un hiperparámetro . No creo que haya mucha investigación al respecto, pero apuesto a que si realiza una búsqueda de validación cruzada en una cuadrícula de parámetros 3D, obtendrá como valor óptimo. Si es así, ¿podría argumentar que siempre es una buena idea incluir el costo también?
Aprecio que el espíritu de la pregunta es "Si es como usted dice y dos penalizaciones son buenas, ¿por qué no agregar otra?" Pero creo que la respuesta radica en por qué nos regularizamos en primer lugar.
regularización tiende a producir soluciones dispersas, sino que también tiende a seleccionar la característica más fuertemente correlacionado con el resultado y cero el resto. Además, en un conjunto de datos con observaciones, puede seleccionar como máximo características. regularización de L 2 es adecuada para tratar problemas mal planteados como resultado de características altamente (o perfectamente) correlacionadas. En un conjunto de datos con características , la regularización de se puede utilizar para identificar de forma exclusiva un modelo en el caso .
Dejando a un lado cualquiera de estos problemas, el modelo regularizado aún puede superar al modelo ML porque las propiedades de contracción de los estimadores son "pesimistas" y llevan los coeficientes hacia 0.
Pero no conozco las propiedades estadísticas para la regularización de . En los problemas en los que he trabajado, generalmente enfrentamos ambos problemas: la inclusión de características pobremente correlacionadas (hipótesis que no son confirmadas por los datos) y características co-lineales.
De hecho, hay razones de peso para que las penalizaciones y sobre los parámetros sean las únicas que se usan típicamente.
En ¿Por qué solo vemos la regularización de y L 2 pero no otras normas? @whuber ofrece este comentario:
Generalmente estoy de acuerdo con la respuesta de @Sycorax, pero me gustaría agregar alguna calificación.
Decir que "la red elástica siempre es preferible a la regresión de lazo y cresta" puede ser demasiado fuerte. En muestras pequeñas o medianas, la red elástica puede no seleccionar LASSO puro o solución de cresta pura, incluso si el primero o el segundo es realmente el relevante. Dado un fuerte conocimiento previo, podría tener sentido elegir LASSO o cresta en lugar de una red elástica. Sin embargo, en ausencia de conocimiento previo, la red elástica debería ser la solución preferida.
Además, la red elástica es computacionalmente más costosa que LASSO o cresta, ya que el peso relativo de LASSO versus cresta debe seleccionarse mediante validación cruzada. Si una cuadrícula razonable de valores alfa es [0,1] con un tamaño de paso de 0.1, eso significaría que la red elástica es aproximadamente 11 veces más costosa computacionalmente que LASSO o cresta. (Dado que LASSO y la cresta no tienen la misma complejidad computacional, el resultado es una suposición aproximada).