La estratificación busca garantizar que cada pliegue sea representativo de todos los estratos de los datos. En general, esto se realiza de forma supervisada para la clasificación y tiene como objetivo garantizar que cada clase esté representada (aproximadamente) por igual en cada pliegue de prueba (que, por supuesto, se combinan de forma complementaria para formar pliegues de entrenamiento).
La intuición detrás de esto se relaciona con el sesgo de la mayoría de los algoritmos de clasificación. Tienden a ponderar cada instancia por igual, lo que significa que las clases sobrerrepresentadas tienen demasiado peso (por ejemplo, optimizar la medida F, la precisión o una forma de error complementaria). La estratificación no es tan importante para un algoritmo que pondera cada clase por igual (por ejemplo, optimizando Kappa, Informedness o ROC AUC) o de acuerdo con una matriz de costos (por ejemplo, que está dando un valor a cada clase correctamente ponderado y / o un costo para cada forma de clasificación errónea). Véase, por ejemplo, DMW Powers (2014), Qué no mide la medida F: características, defectos, fallas y correcciones. http://arxiv.org/pdf/1503.06410
Una cuestión específica que es importante incluso a través de algoritmos imparciales o equilibrados, es que tienden a no poder aprender o probar una clase que no está representada en absoluto en un pliegue, y además, incluso el caso en el que solo uno de una clase es representado en un pliegue no permite que la generalización se realice resp. evaluado. Sin embargo, incluso esta consideración no es universal y, por ejemplo, no se aplica tanto al aprendizaje de una clase, que trata de determinar qué es normal para una clase individual, e identifica efectivamente los valores atípicos como una clase diferente, dada esa validación cruzada se trata de determinar estadísticas que no generan un clasificador específico.
Por otro lado, la estratificación supervisada compromete la pureza técnica de la evaluación ya que las etiquetas de los datos de la prueba no deberían afectar el entrenamiento, pero en la estratificación se usan en la selección de las instancias de entrenamiento. La estratificación no supervisada también es posible sobre la base de difundir datos similares en torno a mirar solo los atributos de los datos, no la clase verdadera. Véase, por ejemplo,
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855
NA Diamantidis, D. Karlis, EA Giakoumakis (1997), Estratificación no supervisada de validación cruzada para la estimación de precisión.
La estratificación también se puede aplicar a la regresión en lugar de a la clasificación, en cuyo caso, al igual que la estratificación no supervisada, se utiliza la similitud en lugar de la identidad, pero la versión supervisada utiliza el valor de función real conocido.
Las complicaciones adicionales son clases raras y clasificación de múltiples capas, donde las clasificaciones se realizan en múltiples dimensiones (independientes). Aquí las tuplas de las etiquetas verdaderas en todas las dimensiones pueden tratarse como clases con el propósito de validación cruzada. Sin embargo, no todas las combinaciones ocurren necesariamente, y algunas combinaciones pueden ser raras. Las clases raras y las combinaciones raras son un problema porque una clase / combinación que ocurre al menos una vez pero menos de K veces (en K-CV) no puede representarse en todos los pliegues de prueba. En tales casos, uno podría considerar una forma de boostrapping estratificado (muestreo con reemplazo para generar un pliegue de entrenamiento de tamaño completo con repeticiones esperadas y 36.8% esperado sin seleccionar para la prueba, con una instancia de cada clase seleccionada inicialmente sin reemplazo para el pliegue de prueba) .
Otro enfoque para la estratificación de múltiples capas es tratar de estratificar o arrancar cada dimensión de clase por separado sin tratar de garantizar una selección representativa de combinaciones. Con las etiquetas L y las instancias N e instancias Kkl de la clase k para la etiqueta l, podemos elegir aleatoriamente (sin reemplazo) del conjunto correspondiente de instancias etiquetadas Dkl aproximadamente N / LKkl instancias. Esto no garantiza un equilibrio óptimo, sino que busca el equilibrio heurísticamente. Esto se puede mejorar restringiendo la selección de etiquetas en la cuota o por encima, a menos que no haya otra opción (ya que algunas combinaciones no ocurren o son raras). Los problemas tienden a significar que hay muy pocos datos o que las dimensiones no son independientes.