Comprender la validación cruzada estratificada

55

¿Cuál es la diferencia entre el estratificado de validación cruzada y la validación cruzada ?

Wikipedia dice:

En la validación cruzada estratificada de k-pliegues , los pliegues se seleccionan de modo que el valor medio de respuesta sea aproximadamente igual en todos los pliegues. En el caso de una clasificación dicotómica, esto significa que cada pliegue contiene aproximadamente las mismas proporciones de los dos tipos de etiquetas de clase.

Pero todavía estoy confundido.

¿Qué mean response valuesignifica en este contexto?
¿Por qué es importante el n. ° 1?
¿Cómo se logra el número 1 en la práctica?

cross-validation stratification

— Amelio Vazquez-Reina
fuente

44

El artículo de validación cruzada en la Enciclopedia de sistemas de bases de datos dice:

La estratificación es el proceso de reorganizar los datos para garantizar que cada pliegue sea un buen representante del conjunto. Por ejemplo, en un problema de clasificación binaria en el que cada clase comprende el 50% de los datos, es mejor organizar los datos de manera que en cada pliegue, cada clase comprenda alrededor de la mitad de las instancias.

Sobre la importancia de la estratificación, Kohavi (un estudio de validación cruzada y bootstrap para la estimación de precisión y la selección del modelo) concluye que:

La estratificación es generalmente un mejor esquema, tanto en términos de sesgo como de varianza, en comparación con la validación cruzada regular.

— Baumann
fuente

55

¿Puedes describir, intuitivamente, por qué es mejor que un CV normal?

— MohamedEzz

Quizás incluya un párrafo que indique que hay diferentes grados de estratificación a los que puede apuntar y que interfieren en diferentes grados con la aleatoriedad de los pliegues. A veces, todo lo que necesita es asegurarse de que haya al menos un registro de cada clase en cada pliegue. Luego, podría generar los pliegues al azar, verificar si se cumple esa condición y solo en el caso poco probable de que no se cumpla, reorganice los pliegues.

— David Ernst

37

La estratificación busca garantizar que cada pliegue sea representativo de todos los estratos de los datos. En general, esto se realiza de forma supervisada para la clasificación y tiene como objetivo garantizar que cada clase esté representada (aproximadamente) por igual en cada pliegue de prueba (que, por supuesto, se combinan de forma complementaria para formar pliegues de entrenamiento).

La intuición detrás de esto se relaciona con el sesgo de la mayoría de los algoritmos de clasificación. Tienden a ponderar cada instancia por igual, lo que significa que las clases sobrerrepresentadas tienen demasiado peso (por ejemplo, optimizar la medida F, la precisión o una forma de error complementaria). La estratificación no es tan importante para un algoritmo que pondera cada clase por igual (por ejemplo, optimizando Kappa, Informedness o ROC AUC) o de acuerdo con una matriz de costos (por ejemplo, que está dando un valor a cada clase correctamente ponderado y / o un costo para cada forma de clasificación errónea). Véase, por ejemplo, DMW Powers (2014), Qué no mide la medida F: características, defectos, fallas y correcciones. http://arxiv.org/pdf/1503.06410

Una cuestión específica que es importante incluso a través de algoritmos imparciales o equilibrados, es que tienden a no poder aprender o probar una clase que no está representada en absoluto en un pliegue, y además, incluso el caso en el que solo uno de una clase es representado en un pliegue no permite que la generalización se realice resp. evaluado. Sin embargo, incluso esta consideración no es universal y, por ejemplo, no se aplica tanto al aprendizaje de una clase, que trata de determinar qué es normal para una clase individual, e identifica efectivamente los valores atípicos como una clase diferente, dada esa validación cruzada se trata de determinar estadísticas que no generan un clasificador específico.

Por otro lado, la estratificación supervisada compromete la pureza técnica de la evaluación ya que las etiquetas de los datos de la prueba no deberían afectar el entrenamiento, pero en la estratificación se usan en la selección de las instancias de entrenamiento. La estratificación no supervisada también es posible sobre la base de difundir datos similares en torno a mirar solo los atributos de los datos, no la clase verdadera. Véase, por ejemplo, http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Estratificación no supervisada de validación cruzada para la estimación de precisión.

La estratificación también se puede aplicar a la regresión en lugar de a la clasificación, en cuyo caso, al igual que la estratificación no supervisada, se utiliza la similitud en lugar de la identidad, pero la versión supervisada utiliza el valor de función real conocido.

Las complicaciones adicionales son clases raras y clasificación de múltiples capas, donde las clasificaciones se realizan en múltiples dimensiones (independientes). Aquí las tuplas de las etiquetas verdaderas en todas las dimensiones pueden tratarse como clases con el propósito de validación cruzada. Sin embargo, no todas las combinaciones ocurren necesariamente, y algunas combinaciones pueden ser raras. Las clases raras y las combinaciones raras son un problema porque una clase / combinación que ocurre al menos una vez pero menos de K veces (en K-CV) no puede representarse en todos los pliegues de prueba. En tales casos, uno podría considerar una forma de boostrapping estratificado (muestreo con reemplazo para generar un pliegue de entrenamiento de tamaño completo con repeticiones esperadas y 36.8% esperado sin seleccionar para la prueba, con una instancia de cada clase seleccionada inicialmente sin reemplazo para el pliegue de prueba) .

Otro enfoque para la estratificación de múltiples capas es tratar de estratificar o arrancar cada dimensión de clase por separado sin tratar de garantizar una selección representativa de combinaciones. Con las etiquetas L y las instancias N e instancias Kkl de la clase k para la etiqueta l, podemos elegir aleatoriamente (sin reemplazo) del conjunto correspondiente de instancias etiquetadas Dkl aproximadamente N / LKkl instancias. Esto no garantiza un equilibrio óptimo, sino que busca el equilibrio heurísticamente. Esto se puede mejorar restringiendo la selección de etiquetas en la cuota o por encima, a menos que no haya otra opción (ya que algunas combinaciones no ocurren o son raras). Los problemas tienden a significar que hay muy pocos datos o que las dimensiones no son independientes.

— David MW Powers
fuente

5

El valor medio de respuesta es aproximadamente igual en todos los pliegues es otra forma de decir que la proporción de cada clase en todos los pliegues es aproximadamente igual.

Por ejemplo, tenemos un conjunto de datos con 80 registros de clase 0 y 20 registros de clase 1. Podemos obtener un valor de respuesta promedio de (80 * 0 + 20 * 1) / 100 = 0.2 y queremos que 0.2 sea el valor de respuesta promedio de todos los pliegues. Esta es también una forma rápida en EDA de medir si el conjunto de datos dado está desequilibrado en lugar de contar.

— Lucy Lu
fuente