¿Puede ser útil la regularización si solo nos interesa el modelado, no el pronóstico?

¿Puede ser útil la regularización si solo estamos interesados en estimar (e interpretar) los parámetros del modelo, no en el pronóstico o la predicción?

Veo cómo la regularización / validación cruzada es extremadamente útil si su objetivo es hacer buenos pronósticos sobre nuevos datos. Pero, ¿qué pasa si estás haciendo economía tradicional y todo lo que te importa es estimar ? ¿La validación cruzada también puede ser útil en ese contexto? La dificultad conceptual con la que lucho es que podemos calcular en los datos de prueba, pero nunca podemos calcular porque la verdadera es, por definición, nunca observada. (Suponga que incluso existe una verdadera , es decir, que conocemos la familia de modelos a partir de los cuales se generaron los datos). $\beta$ $\mathcal{L}\left(Y, \hat{Y}\right)$ $\mathcal{L}\left(\beta, \hat{\beta}\right)$ $\beta$ $\beta$

Suponga que su pérdida es . Te enfrentas a una compensación de varianza sesgada, ¿verdad? Entonces, en teoría, es mejor que hagas alguna regularización. Pero, ¿cómo puede seleccionar su parámetro de regularización? $\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert$

Me encantaría ver un ejemplo numérico simple de un modelo de regresión lineal, con coeficientes $\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)$ , donde la función de pérdida del investigador es, por ejemplo, $\lVert \beta - \hat{\beta} \rVert$ , o incluso solo $(\beta_1 - \hat{\beta}_1)^2$ . ¿Cómo, en la práctica, se podría usar la validación cruzada para mejorar la pérdida esperada en esos ejemplos?

Editar : DJohnson me señaló https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf , que es relevante para esta pregunta. Los autores escriben que

Las técnicas de aprendizaje automático ... proporcionan una forma disciplinada de predecir $\hat{Y}$ que (i) utiliza los datos en sí mismos para decidir cómo hacer el equilibrio de sesgo-varianza y (ii) permite buscar en un conjunto muy rico de variables y formas funcionales. Pero todo tiene un costo: siempre hay que tener en cuenta que, debido a que están ajustados para $\hat{Y}$ , no ofrecen (sin muchos otros supuestos) garantías muy útiles para $\hat{\beta}$ .

Otro artículo relevante, nuevamente gracias a DJohnson: http://arxiv.org/pdf/1504.01132v3.pdf . Este documento aborda la pregunta con la que estaba luchando anteriormente:

Un ... desafío fundamental para aplicar métodos de aprendizaje automático, como los árboles de regresión listos para usar al problema de la inferencia causal, es que los enfoques de regularización basados en la validación cruzada generalmente se basan en la observación de la "verdad fundamental", es decir, los resultados reales en una muestra de validación cruzada. Sin embargo, si nuestro objetivo es minimizar el error cuadrático medio de los efectos del tratamiento, nos encontramos con lo que [11] llama el "problema fundamental de la inferencia causal": el efecto causal no se observa en ninguna unidad individual, por lo que no lo hacemos directamente tener una verdad fundamental Abordamos esto proponiendo enfoques para construir estimaciones imparciales del error cuadrático medio del efecto causal del tratamiento.

— Adrian
fuente

La validación cruzada es solo un método en los kits de herramientas de minería de datos y aprendizaje automático. ML está teniendo un uso cada vez mayor en la economía: vea el sitio web de Susan Athey en Stanford (es una académica interesada en la integración de las técnicas de ML en la economía) o este documento Prediction Policy Problems de Kleinberg, et al., En una versión sin delegar aquí: cs. cornell.edu/home/kleinber/aer15-prediction.pdf

— Mike Hunter

Amigos, desambiguate: ML para muchos sugiere aprendizaje automático y para muchos otros sugiere la máxima probabilidad. (Definición: usted está en el lado del aprendizaje automático de la cerca si ML se traduce automáticamente como aprendizaje automático).

— Nick Cox

@Aksakal, mi experiencia es que la econometría tradicional, como se enseña tanto a los estudiantes de pregrado como de posgrado, no presta esencialmente atención a la validación cruzada. Mire a Hayashi, que es un libro de texto clásico. Claro, tal vez la validación cruzada y el equilibrio de sesgo-varianza se mencionan en un curso específicamente sobre pronósticos, pero no en el curso básico con el que todos los estudiantes comienzan. ¿Eso te suena bien?

— Adrian

@Adrian Veo que la gente vota para cerrar esta pregunta como demasiado amplia. Puede ser así, pero como lo veo, básicamente se pregunta: "¿Puede ser útil el CV si solo estamos interesados en modelar, no en pronosticar?" - Si te entiendo correctamente, tu pregunta se puede editar y simplificar fácilmente, por lo que es más clara y ciertamente no demasiado amplia (¡incluso interesante!).

— Tim

@Adrian, así que es una pregunta muy interesante. Me temo que lo hizo demasiado complicado y la referencia a la econometría no es crucial aquí (ya que es lo mismo con otras áreas donde se utilizan métodos estadísticos). Te animo a editar tu pregunta para simplificarla.

— Tim

Sí, cuando queremos estimaciones sesgadas de baja varianza. Me gusta especialmente la publicación de Gung aquí. ¿Qué problema resuelven los métodos de contracción? Permítame pegar la figura de Gung aquí ...

ingrese la descripción de la imagen aquí Si verifica la trama realizada por gung, tendrá claro por qué necesitamos regularización / contracción. Al principio, me parece extraño que ¿por qué necesitamos estimaciones sesgadas? Pero al observar esa cifra, me di cuenta, tener un modelo de baja varianza tiene muchas ventajas: por ejemplo, es más "estable" en el uso de producción.

— Haitao Du
fuente

Sí, pero ¿cómo seleccionamos el parámetro de regularización? Cuando el objetivo es minimizar el error de predicción, podemos usar un conjunto de validación. ¿Cómo podemos hacer uso de un conjunto de validación si nunca observamos los parámetros verdaderos del modelo?

— Adrian

Vea la cita sobre el "problema fundamental de la inferencia causal" al final de mi pregunta.

— Adrian

¿Puede ser útil la validación cruzada si solo nos interesa el modelado (es decir, los parámetros de estimación), no el pronóstico?

Sí puede. Por ejemplo, el otro día estaba usando la estimación de importancia de parámetros a través de árboles de decisión. Cada vez que construyo un árbol, verifico el error de validación cruzada. Intento disminuir el error tanto como puedo, luego iré al siguiente paso de estimar la importancia de los parámetros. Es posible que si el primer árbol que construyes es muy malo y no verificas el error, tendrás respuestas menos precisas (si no incorrectas).

Creo que la razón principal se debe a la gran cantidad de variables de control que tiene cada técnica. Incluso un ligero cambio en una variable de control proporcionará un resultado diferente.

¿Cómo mejorar su modelo después de verificar el error de validación cruzada? Bueno, depende de tu modelo. Con suerte, después de intentarlo varias veces, obtendrá una idea de las variables de control más importantes y podrá manipularlas para encontrar un error bajo.

— PeyM87
fuente