Variación de las estimaciones de validación cruzada de

TL, DR: Parece que, al contrario de lo que se repite con frecuencia, la validación cruzada de dejar uno fuera (LOO-CV), es decir,plegar CV con(el número de pliegues) igual a (el número de observaciones de entrenamiento): arroja estimaciones del error de generalización que son las menos variables para cualquier , no las más variables, suponiendo una ciertacondición de estabilidad en el modelo / algoritmo, el conjunto de datos o ambos (no estoy seguro de qué es correcto ya que realmente no entiendo esta condición de estabilidad). $K$ $K$ $N$ $K$

¿Alguien puede explicar claramente qué es exactamente esta condición de estabilidad?
¿Es cierto que la regresión lineal es uno de esos algoritmos "estables", lo que implica que, en ese contexto, LOO-CV es estrictamente la mejor opción de CV en lo que respecta al sesgo y la varianza de las estimaciones del error de generalización?

La sabiduría convencional es que la elección de $K$ en $K$ Kplv sigue una compensación de sesgo-varianza, tales valores más bajos de $K$ (aproximándose a 2) conducen a estimaciones del error de generalización que tienen un sesgo más pesimista, pero una varianza más baja, mientras que valores más altos de (acercándose a ) conducen a estimaciones menos sesgadas, pero con mayor varianza. La explicación convencional para este fenómeno de variación que aumenta con se da quizás de manera más prominente en Los Elementos del Aprendizaje Estadístico (Sección 7.10.1): $K$ $N$ $K$

Con K = N, el estimador de validación cruzada es aproximadamente imparcial para el error de predicción verdadero (esperado), pero puede tener una gran varianza porque los N "conjuntos de entrenamiento" son muy similares entre sí.

La implicación es que los errores de validación de están más altamente correlacionados para que su suma sea más variable. Esta línea de razonamiento se ha repetido en muchas respuestas en este sitio (por ejemplo, aquí , aquí , aquí , aquí , aquí , aquí y aquí ), así como en varios blogs, etc. Pero en su lugar, prácticamente nunca se realiza un análisis detallado. solo una intuición o un breve bosquejo de cómo podría ser un análisis. $N$

Sin embargo, uno puede encontrar declaraciones contradictorias, generalmente citando una cierta condición de "estabilidad" que realmente no entiendo. Por ejemplo, esta respuesta contradictoria cita un par de párrafos de un artículo de 2015 que dice, entre otras cosas, "Para los modelos / procedimientos de modelado con baja inestabilidad , LOO a menudo tiene la menor variabilidad" (énfasis agregado). Este artículo (sección 5.2) parece estar de acuerdo en que LOO representa la opción menos variable de siempre que el modelo / algoritmo sea "estable". Tomando incluso otra postura sobre el tema, también está este documento (Corolario 2), que dice "La variación de veces la validación cruzada [...] no depende de $K$ $k$ $k$ , "citando nuevamente una cierta condición de" estabilidad ".

La explicación sobre por qué LOO podría ser el CV pliegue más variable es lo suficientemente intuitiva, pero existe una contra-intuición. La estimación CV final del error cuadrático medio (MSE) es la media de las estimaciones MSE en cada pliegue. Entonces, a medida que aumenta hasta , la estimación de CV es la media de un número creciente de variables aleatorias. Y sabemos que la varianza de una media disminuye con el número de variables que se promedian. Entonces, para que LOO sea el CV de pliegues más variable , debería ser cierto que el aumento de la varianza debido a la mayor correlación entre las estimaciones de MSE supera la disminución de la varianza debido al mayor número de pliegues que se promedia sobre $K$ $K$ $N$ $K$ . Y no es del todo obvio que esto sea cierto.

Habiendo quedado completamente confundido pensando en todo esto, decidí ejecutar una pequeña simulación para el caso de regresión lineal. I simulado 10.000 conjuntos de datos con = 50 y 3 predictores no correlacionados, cada vez estimar el error de generalización usando -fold CV con = 2, 5, 10, o 50 = . El código R está aquí. Estos son los medios y las variaciones resultantes de las estimaciones de CV en los 10.000 conjuntos de datos (en unidades MSE): $N$ $K$ $K$ $N$

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

Estos resultados muestran el patrón esperado de que valores más altos de conducen a un sesgo menos pesimista, pero también parecen confirmar que la varianza de las estimaciones de CV es más baja, no más alta, en el caso LOO. $K$

Por lo tanto, parece que la regresión lineal es uno de los casos "estables" mencionados en los documentos anteriores, donde el aumento de se asocia con una disminución en lugar de una variación creciente en las estimaciones de CV. Pero lo que aún no entiendo es: $K$

¿Qué es precisamente esta condición de "estabilidad"? ¿Se aplica a modelos / algoritmos, conjuntos de datos o ambos en alguna medida?
¿Hay una manera intuitiva de pensar en esta estabilidad?
¿Cuáles son otros ejemplos de modelos / algoritmos o conjuntos de datos estables e inestables?
¿Es relativamente seguro suponer que la mayoría de los modelos / algoritmos o conjuntos de datos son "estables" y que, por lo tanto, debería elegirse tan alto como sea computacionalmente posible? $K$

— Jake Westfall
fuente

+1. ¿Qué es exactamente "malo" en los resultados de su simulación? ¿Estimación media del CV del error de generalización (media en 10000 conjuntos de datos)? ¿Pero con qué deberíamos compararlo? Sería más significativo mostrar el sesgo, es decir, la desviación cuadrática media del error de generalización verdadero. Además, ¿qué es el "verdadero error de generalización" en este caso? ¿Verdadero error de generalización de la estimación en un conjunto de datos N = 100 dado? ¿O el valor esperado del verdadero error de generalización (valor esperado sobre todos los conjuntos de datos N = 100)? ¿O algo mas?

— ameba dice Reinstate Monica

+1. Después de una breve mirada a en.wikipedia.org/wiki/… , parece que en este contexto la estabilidad significa que un algoritmo produce resultados similares en el conjunto de entrenamiento con ejemplos de

. Donde similar significa diferencia wrt alguna función de pérdida limitada por algún valor bajo

N

$N$

N - 1

$N-1$

— Łukasz Grad

Aparte de eso, recientemente he hablado sobre ello con @DikranMarsupial (quien es probablemente uno de nuestros principales expertos en validación cruzada aquí en CV) aquí en los comentarios : sugirió leer el documento de Kohavi de 1995 . Dikran también hablaba de estabilidad. Desafortunadamente, no lo seguí desde entonces.

— ameba dice Reinstate Monica

No lo creo, @Jake. Lo que escribí invalida su "contra-intuición", pero la "intuición" principal (sobre modelos de diferentes pliegues que son altamente dependientes) aún puede sostenerse.

— ameba dice Reinstate Monica

Otra simulación que respalda sus conclusiones de que la varianza disminuye con

: stats.stackexchange.com/a/357749/28666 .

K

$K$

— ameba dice Reinstate Monica

Respuestas:

Esta respuesta sigue a mi respuesta en Sesgo y varianza en la validación cruzada de dejar uno afuera versus K-fold que discute por qué LOOCV no siempre conduce a una mayor varianza. Siguiendo un enfoque similar, intentaré resaltar un caso en el que LOOCV conduce a una mayor variación en presencia de valores atípicos y un "modelo inestable".

Estabilidad algorítmica (teoría del aprendizaje)

El tema de la estabilidad algorítmica es reciente y se han demostrado varios resultados clásicos e influyentes en los últimos 20 años. Aquí hay algunos artículos que a menudo se citan

Heurística de inestabilidad y estabilización en la selección del modelo (1996): Leo Breiman
Estabilidad algorítmica y límites de sanidad para LOOCV (1997): Kearns, Ron
Estabilidad y generalización (2002): Bousquet, Elisseef
Validación cruzada y estabilidad cuadrática media (2011) Kale, Kumar, Vassilvitskii
Estabilidad algorítmica y error de generalización en casi todas partes (2012): Kutin, Niyogi
Algunas notas sobre el tema: Universidad de Arizona

La mejor página para comprender es, sin duda, la página de Wikipedia, que proporciona un excelente resumen escrito por un usuario presumiblemente muy bien informado.

Definición intuitiva de estabilidad

Intuitivamente, un algoritmo estable es aquel para el cual la predicción no cambia mucho cuando los datos de entrenamiento se modifican ligeramente.

Formalmente, hay media docena de versiones de estabilidad, unidas por condiciones técnicas y jerarquías, vea este gráfico desde aquí, por ejemplo:

Sin embargo, el objetivo es simple: queremos obtener límites estrechos en el error de generalización de un algoritmo de aprendizaje específico, cuando el algoritmo satisface el criterio de estabilidad. Como cabría esperar, cuanto más restrictivo sea el criterio de estabilidad, más estricto será el límite correspondiente.

Notación

La siguiente notación es del artículo de Wikipedia, que copia el documento de Bousquet y Elisseef:

El conjunto de entrenamiento se extrae de una distribución desconocida D $S = \{ z_1 = (x_1,y_1), ..., z_m = (x_m, y_m)\}$
La función de pérdida de una hipótesis con respecto a un ejemplo se define como $V$ $f$ $z$ $V(f,z)$
Modificamos el conjunto de entrenamiento eliminando el elemento -ésimo: $i$ $S^{|i} = \{ z_1,...,z_{i-1}, z_{i+1},...,z_m\}$
O sustituyendo el el elemento -ésimo: $i$ $S^{i} = \{ z_1,...,z_{i-1}, z_i^{'}, z_{i+1},...,z_m\}$

Definiciones formales

Quizás la noción más fuerte de estabilidad que se espera que obedezca un algoritmo de aprendizaje interesante es la estabilidad uniforme :

Estabilidad uniforme Un algoritmo tiene una estabilidad uniforme con respecto a la función de pérdida si se cumple lo siguiente: $\beta$ $V$

\forall S \in Z^{m} \forall i \in {1, . . ., m}, sup | V (f_{s}, z) - V (f_{S^{| i}, z}) | \leq β

$\forall S \in Z^m \ \ \forall i \in \{ 1,...,m\}, \ \ \sup | V(f_s,z) - V(f_{S^{|i},z}) |\ \ \leq \beta$

Considerado como una función de , el término puede escribirse como . Decimos que el algoritmo es estable cuando disminuye como $m$ $\beta$ $\beta_m$ $\beta_m$ . Una forma ligeramente más débil de estabilidad es: $\frac{1}{m}$

Hipótesis de estabilidad

\forall i \in {1, . . ., m}, E [| V (f_{s}, z) - V (f_{S^{| i}, z}) |] \leq β

$\forall i \in \{ 1,...,m\}, \ \ \mathbb{E}[\ | V(f_s,z) - V(f_{S^{|i},z}) |\ ] \ \leq \beta$

Si se extrae un punto, la diferencia en el resultado del algoritmo de aprendizaje se mide por la diferencia absoluta promedio de las pérdidas ( NORM). Intuitivamente: pequeños cambios en la muestra solo pueden hacer que el algoritmo se mueva a hipótesis cercanas. $L_1$

La ventaja de estas formas de estabilidad es que proporcionan límites para el sesgo y la varianza de los algoritmos estables. En particular, Bousquet demostró estos límites para la estabilidad Uniforme e Hipótesis en 2002. Desde entonces, se ha trabajado mucho para tratar de relajar las condiciones de estabilidad y generalizar los límites, por ejemplo, en 2011, Kale, Kumar, Vassilvitskii sostienen que la estabilidad cuadrática media proporciona una mejor varianza cuantitativa límites de reducción de varianza.

Algunos ejemplos de algoritmos estables.

Se ha demostrado que los siguientes algoritmos son estables y tienen límites de generalización probados:

Regresión de mínimos cuadrados regularizada (con previo apropiado)
Clasificador KNN con función de pérdida 0-1
SVM con un núcleo acotado y una gran constante de regularización
Margen suave SVM
Algoritmo de entropía relativa mínima para la clasificación
Una versión de regularizadores de embolsado

Una simulación experimental

Repitiendo el experimento del hilo anterior ( ver aquí ), ahora presentamos una cierta proporción de valores atípicos en el conjunto de datos. En particular:

El 97% de los datos tiene ruido uniforme $[-.5,.5]$
3% de los datos con ruido uniforme $[-20,20]$

Como el modelo polinomial de órdenes no está regularizado, estará fuertemente influenciado por la presencia de algunos valores atípicos para pequeños conjuntos de datos. Para conjuntos de datos más grandes, o cuando hay más valores atípicos, su efecto es menor ya que tienden a cancelarse. Vea a continuación dos modelos para 60 y 200 puntos de datos. $3$

Realizando la simulación como anteriormente y trazando el MSE promedio resultante y la varianza del MSE, se obtienen resultados muy similares al Experimento 2 del artículo de Bengio & Grandvalet 2004 .

Lado izquierdo : sin valores atípicos. Lado derecho : 3% de valores atípicos.

(ver el artículo vinculado para la explicación de la última figura)

Explicaciones

Citando la respuesta de Yves Grandvalet en el otro hilo:

Intuitivamente, [en la situación de algoritmos inestables], el CV de omisión puede ser ciego a las inestabilidades que existen, pero no puede activarse cambiando un solo punto en los datos de entrenamiento, lo que lo hace altamente variable para la realización de conjunto de entrenamiento.

En la práctica, es bastante difícil simular un aumento en la varianza debido a LOOCV. Requiere una combinación particular de inestabilidad, algunos valores atípicos pero no demasiados, y una gran cantidad de iteraciones. Quizás esto se espera ya que se ha demostrado que la regresión lineal es bastante estable. Un experimento interesante sería repetir esto para datos de dimensiones superiores y un algoritmo más inestable (por ejemplo, árbol de decisión)

— Xavier Bourret Sicotte
fuente

+1, pero espero que este hilo finalmente se pueda cerrar como el duplicado del enlace (esperaría hasta que termine el período de recompensa y las discusiones se sometan, y veré qué respuesta termina siendo aceptada). Más adelante comentaré más.

— ameba dice Reinstate Monica

No estoy realmente convencido de que la pregunta sea un duplicado. Mi pregunta utiliza la variación del problema LOO principalmente como una forma de enmarcar las preguntas principales, que tratan de tratar de obtener una explicación accesible de lo que significa "estabilidad": vea las preguntas puntiagudas en la parte superior e inferior del OP. Hablando de eso, si bien esta respuesta es útil (+1), no puedo ver que intentaste responder a las preguntas de estabilidad ... utilizas el término un par de veces, pero parece que lo haces de una manera que asume que el lector ya sabe lo que significa. No estoy seguro de poder aceptar la respuesta en su forma actual.

— Jake Westfall

@JakeWestfall Cuando escribí que "espero" que este hilo eventualmente pueda cerrarse como un duplicado, quise decir que espero que una respuesta aceptada en ese hilo sea lo suficientemente buena como para cubrir las cosas que preguntaste :) Eche un vistazo al artículo de Bengio & Grandvalet, Experimento 2. Muestran que usando regresión lineal y datos gaussianos obtienen una varianza mínima para LOOCV (ese es su resultado también), pero si los datos contienen alguna fracción de valores atípicos, entonces LOOCV tiene una varianza más alta que 10- doblar más o menos. Creo que esto sugiere de qué se trata la "estabilidad" relevante.

— ameba dice Reinstate Monica

Me encanta @XavierBourretSicotte. Gracias por hacer un trabajo tan bueno en esta respuesta.

— Jake Westfall

Sí, citando este documento: pdfs.semanticscholar.org/bf83/… : "Un algoritmo estable tiene la propiedad de que reemplazar un elemento en su conjunto de aprendizaje no cambia mucho su resultado. Como consecuencia, el error empírico, si se considera como un variable aleatoria, debe tener una pequeña variación. Los algoritmos estables pueden ser buenos candidatos para que su error empírico esté cerca de su error de generalización.

— Xavier Bourret Sicotte

Daré mi respuesta en el contexto del párrafo que usted cita:

Con K = N, el estimador de validación cruzada es aproximadamente imparcial para el error de predicción verdadero (esperado), pero puede tener una gran varianza porque los N "conjuntos de entrenamiento" son muy similares entre sí.

El estimador CV del error de predicción verdadero (esperado) se basa en un ejemplo de conjunto de entrenamiento, por lo que aquí, la expectativa es sobre las muestras del conjunto de entrenamiento, cuando lo entiendo correctamente.

Entonces, lo que dice este párrafo con respecto a la "varianza alta" es que hay una diferencia "alta" entre el error esperado y el error estimado por CV (que es aquí, el promedio sobre pliegues).

Esto tiene sentido porque el modelo se ajusta a un conjunto de entrenamiento en particular y porque todos los pliegues de entrenamiento son muy similares dentro de Leave-One-Out. Sin embargo, si bien los pliegues de entrenamiento son muy similares dentro de una ronda de CV, la estimación probablemente difiere mucho si intercambiamos muestras de entrenamiento por CV. En k-fold CV, dado que "diversificamos" los pliegues de entrenamiento, tenemos un efecto promedio y, a través de k-fold, las estimaciones varían menos.

O, en otras palabras, el estimador de CV de dejar uno fuera es básicamente casi como un método de retención si no gira los pliegues y basa su estimación de error en un conjunto de validación. Nuevamente, en los ejemplos de entrenamiento, habrá una gran variación en comparación con las estimaciones de k-fold, donde promedias los pliegues al entrenar modelos algo diversos dentro de la ronda de k-fold (en otras palabras, si intercambias conjuntos de entrenamiento, las estimaciones de el error a través de k-fold probablemente no variará tanto).

EDITAR:

Cuando leo algunas respuestas aquí sobre validación cruzada e Internet en general, creo que parece haber cierta confusión a qué estimador nos referimos. Creo que algunas personas se refieren a un modelo que tiene una alta varianza (es decir, ML habla de la pérdida que tiene un componente de varianza dominante) frente a una alta varianza del estimador de CV k veces. Y, otro conjunto de respuestas se refieren a la varianza como la varianza de muestra con respecto a los pliegues cuando alguien dice "k-fold tiene una alta varianza". Por lo tanto, sugiero ser específico, porque las respuestas son diferentes en cualquier caso.

Cuando discuto la varianza, mi suposición es que estamos hablando de la varianza del estimador CV en el conjunto de entrenamiento D como se define aquí: stats.stackexchange.com/questions/365224/… y aquí: stats.stackexchange.com/questions/325123/… . Yves Grandvalet y Bengio sostienen en su artículo de 2004 que el CV estima el error de predicción esperado. Puedes ver su respuesta aquí: stats.stackexchange.com/a/358138/192854

— Xavier Bourret Sicotte

Si va a basar su respuesta en diferentes definiciones de varianza, creo que sería útil agregar las definiciones y fórmulas formales. Quizás debería hacerlo también en mis respuestas ...

— Xavier Bourret Sicotte

Sí, necesito revisar un poco la literatura y debo agregar algunas fórmulas a la respuesta. Sin embargo, la cita de The Elements of Statistical Learning todavía es intuitiva para mí, que LOOCV tiene una alta varianza si el modelo tiene una alta varianza, porque es un promedio en los pliegues. Si un modelo tiene un alto sesgo, tanto el LOOCV como cualquier estimador de k-pliegues deben tener una baja varianza (independiente del sesgo) porque las predicciones no variarán demasiado. Pero el punto en el párrafo era un problema. ese LOOCV en comparación con k-fold para la mayoría de los casos

Se ha demostrado que la cita es incorrecta, al menos como una generalización, vea los múltiples documentos citados en mis respuestas

— Xavier Bourret Sicotte,

Hemos pasado por esto antes: te estás volviendo demasiado matemático sobre un caballo muerto. Vea el artículo clásico de Ron Kohavi (Stanford-Univ) sobre CV y el dilema de la desviación del sesgo aquí . Cuando termine de leer esto, no querrá realizar LOOCV, y es probable que se sienta atraído por un CV de 10 veces y / o un CV de sesgo de arranque.

También debe pensar en grandes conjuntos de datos, para los cuales LOOCV es demasiado costoso computacionalmente. En la actualidad, LOOCV no es realmente una opción en los flujos de trabajo / canalizaciones de la mayoría de los grupos.

¿Qué es precisamente esta condición de "estabilidad"? ¿Se aplica a modelos / algoritmos, conjuntos de datos o ambos en alguna medida?

En el universo de todas las funciones de costo y en el universo de todos los conjuntos de características, no asumiría que hay un índice general de "estabilidad", porque no sería inadmisible y sería demasiado propenso a descomponerse bajo un conjunto infinitamente grande de condiciones Fundamentalmente, $k=n$ es apropiado cuando los parámetros df y / o # son tan grandes que se necesitan más datos de capacitación. El sesgo también será mayor para $k=n$ , ya que se utilizan más datos, y la varianza sería artificialmente cero, ya que los conjuntos de datos de entrenamiento son demasiado similares entre sí. También estaría aprendiendo más ruido en los datos cuando $k=n$ .

LREG como clasificador funcionaría cuando los datos son linealmente separables, pero en promedio su sesgo sería demasiado alto, ya que muchos conjuntos de datos no son linealmente separables.

¿Hay una manera intuitiva de pensar en esta estabilidad?

En mi opinión, no, ya que no existe una regla general sobre la estabilidad.

¿Cuáles son otros ejemplos de modelos / algoritmos o conjuntos de datos estables e inestables?

Esto es abierto y demasiado amplio, ya que se puede idear un número infinitamente grande de respuestas, lo que no sería útil.

¿Es relativamente seguro asumir que la mayoría de los modelos / algoritmos o conjuntos de datos son "estables" y, por lo tanto, que $K$ ¿debería elegirse generalmente tan alto como sea computacionalmente factible?

No. No. Confiando solo en $k$ asume que crees en los datos. Un ejemplo son los bosques aleatorios, para los cuales realmente no hay $k$ . Si bien aproximadamente el 37% de los datos se usarán para las pruebas (en promedio, el 37% de los objetos no se seleccionan al muestrear con reemplazo), por ejemplo, hay 5,000 conjuntos de datos diferentes (bootstraps), cada uno de los cuales se divide en entrenamiento / prueba de manera diferente. Su ejemplo extraído de los documentos asumió que cada conjunto de datos utilizado era una verdadera realización de los datos, lo cual es una suposición errónea.

Dado el arranque, la regla de estabilidad que rodea $k$ es admisible, ya que la muestra de datos utilizada para un enfoque CV simple que involucra $k$ No es una verdadera realización del universo de todos los datos de los que se obtuvo la muestra.

— JoleT
fuente

Gracias por sus comentarios, pero esto no parece responder a la pregunta.

— Jake Westfall

Vea la respuesta adjunta a la OP.

— JoleT

Solo hojearon el artículo, pero realmente parecen afirmar que 10x es el mejor en un terreno extremadamente inestable. No puedo creer que tenga 7k citas. Dicho esto, parece que hay buenas razones para creer que hay más de 10 veces más beneficios. Daré una lectura más exhaustiva cuando tenga la oportunidad.

— Cliff AB