Creo que una suposición básica del aprendizaje automático o la estimación de parámetros es que los datos invisibles provienen de la misma distribución que el conjunto de entrenamiento. Sin embargo, en algunos casos prácticos, la distribución del conjunto de prueba será casi diferente del conjunto de entrenamiento.
Digamos para un problema de clasificación múltiple a gran escala que trata de clasificar las descripciones de productos en aproximadamente 17,000 clases. El conjunto de entrenamiento tendrá antecedentes de clase muy sesgados, de modo que algunas clases podrían tener muchos ejemplos de entrenamiento, pero algunos podrían tener solo algunos. Supongamos que un cliente nos da un conjunto de pruebas con etiquetas de clase desconocidas. Intentamos clasificar cada producto en el conjunto de prueba en una de las 17,000 clases, utilizando el clasificador entrenado en el conjunto de entrenamiento. El conjunto de prueba probablemente tendría distribuciones de clase asimétricas, pero probablemente muy diferente de la del conjunto de capacitación, ya que podrían estar relacionadas con diferentes áreas de negocios. Si las distribuciones de dos clases son muy diferentes, el clasificador entrenado podría no funcionar bien en el conjunto de prueba. Esto parece especialmente obvio con el clasificador Naive Bayes.
¿Hay alguna forma de principios para manejar la diferencia entre el conjunto de entrenamiento y un conjunto de prueba dado particular para clasificadores probabilísticos? Escuché acerca de que "SVM transductivo" hace algo similar en SVM. ¿Existen técnicas similares para aprender un clasificador que funcione mejor en un determinado conjunto de pruebas? Entonces podemos volver a entrenar el clasificador para diferentes conjuntos de pruebas, como se permite en este escenario práctico.