¿Cuál es el procedimiento para la "validación de arranque" (también conocido como "remuestreo de validación cruzada")?

"Validación Bootstrap" / "remuestreo de validación cruzada" es nuevo para mí, pero fue discutido por la respuesta a esta pregunta . Supongo que involucra 2 tipos de datos: los datos reales y los datos simulados, donde un conjunto dado de datos simulados se genera a partir de los datos reales mediante remuestreo con reemplazo hasta que los datos simulados tengan el mismo tamaño que los datos reales. Puedo pensar en dos enfoques para usar tales tipos de datos: (1) ajustar el modelo una vez, evaluarlo muchas veces en muchos conjuntos de datos simulados; (2) ajustar el modelo muchas veces usando cada uno de los muchos conjuntos de datos simulados, cada vez evaluarlo contra los datos reales. ¿Cuál (si alguno) es el mejor?

— Mike Lawrence
fuente

Respuesta corta: Ambas técnicas de validación implican capacitación y prueba de varios modelos.

Respuesta larga sobre cómo hacerlo mejor: eso, por supuesto, depende. Pero aquí hay algunos pensamientos que uso para guiar mis decisiones sobre la validación de remuestreo. Soy quimiométrico, por lo que estas estrategias y también los términos están más o menos estrechamente relacionados con problemas analítico-químicos.

Para explicar un poco mis pensamientos, pienso en la validación como medida de la calidad del modelo y en la capacitación como parámetros del modelo de medición ; esto lleva a una analogía bastante poderosa con cualquier otro tipo de medición.

Hay dos puntos de vista diferentes para estos enfoques con respecto a la validación:

Un punto de vista tradicional para la validación de remuestreo es: el conjunto de datos remuestreados (a veces denominado conjunto o subconjunto de datos sustitutos) es prácticamente el mismo que el conjunto de datos original (real).
Por lo tanto, un "modelo sustituto" ajustado al conjunto de datos sustitutos es prácticamente el mismo que el modelo ajustado con todo el conjunto de datos reales. Pero algunas muestras quedan fuera del conjunto de datos sustitutos, el modelo es independiente de estos. Por lo tanto, tomo esas muestras omitidas o fuera de arranque como un conjunto de validación independiente para el modelo sustituto y utilizo el resultado como aproximación del modelo de datos completos.
Sin embargo, el modelo sustituto a menudo no es realmente equivalente al modelo de datos completos: se usaron menos muestras para el entrenamiento (incluso para el bootstrap, el número de muestras diferentes es menor). Mientras la curva de aprendizaje aumenta, el modelo sustituto es en promedio un poco peor que el modelo de datos completos. Este es el conocido sesgo pesimista de la validación de remuestreo (si terminas con un sesgo optimista, eso generalmente es un indicador de que el conjunto de pruebas omitidas / oob no era independiente del modelo).
El segundo punto de vista es que el conjunto de datos muestreados es una versión perturbada de todo el conjunto de datos. Examinando cómo los modelos sustitutos (o sus predicciones para las muestras excluidas / oob) difieren del modelo de datos completos, luego se dice algo sobre la estabilidad del modelo con respecto a los datos de entrenamiento.
Desde esta perspectiva, los modelos sustitutos son algo así como mediciones repetidas. Digamos que su tarea es medir el contenido de algún mineral de un tren completo de mineral. El mineral no es homogéneo. Por lo tanto, toma muestras físicas de diferentes ubicaciones y luego mira el contenido general y su variación en todo el tren. Del mismo modo, si cree que su modelo puede no ser estable, puede observar el rendimiento general y la variación de los modelos sustitutos.

$n$
Por lo general, vuelvo a muestrear casos, por ejemplo, un caso = todas las mediciones de un paciente. Entonces, todos los pacientes que se encuentran fuera de la bolsa no tienen mediciones en los datos de entrenamiento. Esto es útil si sabe que las mediciones de un caso son más similares entre sí que las mediciones de otros casos (o al menos no puede excluir esta posibilidad).

No es que la validación de remuestreo le permita medir el rendimiento de muestras desconocidas . Si además desea medir el rendimiento de muestras futuras desconocidas (deriva instrumental), entonces necesita un conjunto de prueba que se mide "en el futuro", es decir, un cierto tiempo después de que se midieron todas las muestras de entrenamiento. En química analítica, esto es necesario, por ejemplo, si desea saber con qué frecuencia necesita rehacer la calibración de su instrumento (para cada determinación, diaria, semanal, mensual, ...)

Bootstrap vs terminología de validación cruzada :

el remuestreo con reemplazo a menudo se llama bootstrap,
remuestreo sin reemplazo de validación cruzada.

Ambos pueden tener algún tipo de estratificación. Históricamente, la división para la validación cruzada (al menos en quimiometría) a menudo se ha realizado de manera no aleatoria, por ejemplo, una validación cruzada triple de la forma abcabc..abc (conjunto de datos ordenado wrt. El resultado) para la calibración / regresión si tiene muy pocos casos (muestras físicas) y desea asegurarse de que todo su rango de datos esté cubierto.

Ambas técnicas generalmente se repiten / iteran varias veces. Nuevamente, por razones históricas y al menos en quimiometría, la validación cruzada de k veces significa a menudo entrenamiento y prueba de k modelos (cada uno probado con el 1/10 de los datos que no estuvieron involucrados en el entrenamiento). Si se repite dicha división aleatoria, las personas lo llaman validación cruzada iterativa o repetida.

$k$ $k$ $n$ $n$ $n$

Tenga en cuenta que el bootstrap no es apropiado para algunas técnicas de ajuste de modelos que eliminan primero las mediciones duplicadas.
Existen algunas variantes de bootstrap, por ejemplo .632-bootstrap y .632 + -bootstrap

$k$ $k$

— cbeleites apoya a Monica
fuente

La respuesta larga es buena.

— Momo

(+1) gran perspectiva. Estoy bastante seguro de que el término sustituto se mantendrá.

— steffen

@steffen, gracias. De ninguna manera soy el inventor del término. Creo que me encontré por primera vez en un artículo de U. Braga-Neto (posiblemente este: ncbi.nlm.nih.gov/pubmed/14960464 ) pero inmediatamente me convencí del término ...

— cbeleites apoya a Monica

En cuanto a la observación en la pregunta sobre datos simulados. El bootstrap per se no involucra datos simulados. Los datos simulados se utilizarán como una forma de evaluar si el método bootstrap funciona en un problema particular. Pero la rutina de arranque en sí misma es solo una reutilización de los datos basada en la muestra de rutina de carga. Muestras seleccionadas al azar con reemplazo del conjunto de datos original. Esto generalmente implica tomar n muestras donde n es el tamaño de la muestra original. Monte Carlo entra como una forma de aproximar la distribución de bootstrap generando muestras de bootstrap en la computadora.

— Michael R. Chernick

No sé sobre "mejor" (que probablemente depende de para qué lo use), pero uso la validación de arranque para estimar el error en los nuevos datos de la siguiente manera (tercera forma si lo desea):

Dibuje un conjunto de entrenamiento de N observaciones a partir de los datos originales (de tamaño N) con reemplazo.
Ajustar el modelo a los datos de entrenamiento.
Evaluar el modelo en las muestras fuera de bolsa (oob)

Lo que está fuera de la bolsa no siempre está claramente definido. A menudo son todas esas observaciones las que no formaron parte del conjunto de entrenamiento. Sería más estricto (lo uso de esta manera) tener solo observaciones en la muestra oob que tengan una comprensión del vector predictor completo que no sea parte del conjunto de entrenamiento (lo cual es especialmente útil si tiene muchos factores). Aún más estricto es usar una muestra de Oob que contenga solo aquellas observaciones que tengan una realización diferente de la variable predictiva en los predictores elegidos en el modelo (especialmente útil si el modelo se encuentra con algún procedimiento de selección de variables, por ejemplo, árboles).

Luego, repito esto varias veces k y agrego los resultados sobre los pliegues k (media o mediana o cualquier estadística que sea útil). El modelo elegido de esta manera puede ajustarse al conjunto de datos general (como en su opción 2) para medir adicionalmente si todavía hay una tendencia a sobreajustar (la medida de rendimiento no debe estar muy lejos de las muestras de arranque).

Si tengo más modelos o una cuadrícula de parámetros o similar, los ajusto a cada conjunto de entrenamiento y los evalúo en cada muestra oob. También es posible no usar un conjunto de entrenamiento dos veces, pero para cada modelo o combinación de parámetros de ajuste para dibujar un nuevo par de entrenamiento / oob.

Véase, por ejemplo, El diseño y análisis de experimentos de evaluación comparativa .

— Momo
fuente