Optimización: ¿La raíz de todo mal en las estadísticas?

He escuchado la siguiente expresión antes:

"La optimización es la raíz de todo mal en las estadísticas".

Por ejemplo, la respuesta principal en este hilo hace esa declaración en referencia al peligro de optimizar demasiado agresivamente durante la selección del modelo.

Mi primera pregunta es la siguiente: ¿Es esta cita atribuible a alguien en particular? (por ejemplo, en la literatura estadística)

Por lo que entiendo, la declaración se refiere a los riesgos de sobreajuste. La sabiduría tradicional diría que la validación cruzada adecuada ya lucha contra este problema, pero parece que hay más en este problema que eso.

¿Deben los estadísticos y los profesionales de ML tener cuidado de no optimizar demasiado sus modelos incluso cuando se adhieren a estrictos protocolos de validación cruzada (por ejemplo, 100 CV anidados 10 veces)? Si es así, ¿cómo sabemos cuándo dejar de buscar el "mejor" modelo?

cross-validation optimization overfitting

— Amelio Vazquez-Reina
fuente

Sin embargo, la segunda pregunta definitivamente se sostiene por sí sola, ¿no es así?

— russellpierce

@Glen_b Dejé una referencia en ese hilo. Pero solo para aclarar, Dikran ya sugirió abrir preguntas de seguimiento a su respuesta en hilos separados, y dudo que esta pregunta deba abordarse en un comentario.

— Amelio Vazquez-Reina

@ RussellS.Pierce La edición que contenía la pregunta tal como está ahora, aunque se hizo antes de mi comentario, no estaba allí cuando la cargué y comencé a investigar la pregunta original y las posibles respuestas, solo tenía lo que describiría como una pregunta retórica allí. La pregunta tal como está ahora está bien.

— Glen_b -Reinstalar Monica

El problema de la validación cruzada se trata en otra pregunta aquí: stats.stackexchange.com/questions/29354/… La validación cruzada puede ayudar a evitar un ajuste excesivo, pero no resuelve el problema por completo. Saber cuándo parar puede ser un problema decididamente complicado, y no creo que pueda haber una solución general.

— Dikran Marsupial

"La validación cruzada adecuada ya lucha contra este problema, pero parece que hay más en este problema que eso". Sí: el problema sigue siendo la varianza de las estimaciones de validación cruzada (combinado con una problemática de pruebas múltiples). Si encuentro el tiempo, escribiré una respuesta para su pregunta relacionada.

— cbeleites apoya a Monica el

Respuestas:

La cita es una paráfrasis de una cita de Donald Knuth , que él mismo ha atribuido a Hoare. Tres extractos de la página anterior:

La optimización prematura es la raíz de todo mal (o al menos la mayor parte) en la programación.

La optimización prematura es la fuente de todos los males.

Knuth se refiere a esto como "Dictum de Hoare" 15 años después ...

No sé si estoy de acuerdo con la paráfrasis estadística *. Hay un montón de "maldad" en las estadísticas que no se relacionan con la optimización.

¿Deben los estadísticos y los profesionales de ML siempre tener cuidado con la optimización excesiva de sus modelos, incluso cuando se adhieren a estrictos protocolos de validación cruzada (por ejemplo, 100 CV anidados 10 veces)? Si es así, ¿cómo sabemos cuándo dejar de buscar el "mejor" modelo?

Creo que lo fundamental es comprender completamente (o tan completamente como sea posible) las propiedades de los procedimientos que realice.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b -Reinstate a Monica
fuente

Gracias, esto es útil. Creo que hay algunas conexiones interesantes entre la optimización prematura en la programación y el sobreajuste. Me pregunto si hay citas similares en nuestra comunidad y si hay una forma rigurosa de combatir esto en las estadísticas.

— Amelio Vazquez-Reina

Mi uso de la frase fue inspirado por Knuth, aunque la razón es diferente y desde una perspectiva bayesiana, casi toda optimización es algo malo y la marginación es mejor.

— Dikran Marsupial

Un par de formas en que podría analizar la cotización (en estadísticas), suponiendo que la optimización se refiera a la selección de modelo (basada en datos):

Si le interesan las predicciones, es mejor que promedie el modelo en lugar de seleccionar un solo modelo.
Si selecciona un modelo en el mismo conjunto de datos utilizado para ajustarse al modelo, causará estragos en las herramientas / procedimientos de inferencia habituales que suponen que ha elegido el modelo a priori . (Digamos que hace una regresión por pasos, eligiendo el tamaño del modelo mediante validación cruzada. Para un análisis Frequentista, los valores p habituales o IC para el modelo elegido serán incorrectos. Estoy seguro de que existen problemas correspondientes para los análisis bayesianos que involucran el modelo selección.)
Si su conjunto de datos es lo suficientemente grande en comparación con la familia de modelos que considera, el sobreajuste podría incluso no ser un problema y la selección del modelo puede ser innecesaria. (Dice que va a ajustar una regresión lineal utilizando un conjunto de datos con pocas variables y muy muchas observaciones. Las variables espurias debe conseguir coeficientes estimado cercano a 0 todos modos, así que tal vez no necesitan molestas en la selección de un modelo más pequeño.)
Si su conjunto de datos es lo suficientemente pequeño, es posible que no tenga suficientes datos para ajustarse al modelo "verdadero" o "mejor" para el problema. ¿Qué significa incluso hacer bien la selección de modelos, en ese caso? (Volver a la regresión lineal: en caso de que el objetivo de seleccionar el modelo de "verdadero" con las variables correctas, incluso si usted no tiene suficientes datos para medir todos ellos adecuadamente en caso de que sólo debes elegir el modelo más grande para el que no tiene datos suficientes ?)
Finalmente, incluso cuando está claro que puede y debe hacer la selección del modelo, la validación cruzada no es una panacea. Tiene muchas variantes e incluso su propio parámetro de ajuste (número de pliegues o relación tren: prueba) que afecta sus propiedades. Así que no confíes en ello a ciegas.

— civilstat
fuente