He estado buscando métodos de aprendizaje semi-supervisados y he encontrado el concepto de "pseudo-etiquetado".
Según tengo entendido, con pseudo-etiquetado tiene un conjunto de datos etiquetados, así como un conjunto de datos sin etiquetar. Primero entrena un modelo solo con los datos etiquetados. Luego usa esos datos iniciales para clasificar (adjuntar etiquetas provisionales) los datos sin etiquetar. Luego, ingresa los datos etiquetados y no etiquetados nuevamente en su entrenamiento modelo, (re) ajustando tanto a las etiquetas conocidas como a las etiquetas predichas. (Itere este proceso y vuelva a etiquetar con el modelo actualizado).
Los beneficios reclamados son que puede usar la información sobre la estructura de los datos sin etiquetar para mejorar el modelo. A menudo se muestra una variación de la siguiente figura, "demostrando" que el proceso puede tomar un límite de decisión más complejo en función de dónde se encuentran los datos (sin etiquetar).
Imagen de Wikimedia Commons por Techerin CC BY-SA 3.0
Sin embargo, no estoy comprando esa explicación simplista. Ingenuamente, si el resultado original del entrenamiento etiquetado solo fuera el límite superior de decisión, las pseudo-etiquetas se asignarían en función de ese límite de decisión. Es decir que la mano izquierda de la curva superior estaría pseudo-etiquetada en blanco y la mano derecha de la curva inferior estaría pseudo-etiquetada en negro. No obtendría el límite de decisión curvo agradable después del reentrenamiento, ya que las nuevas pseudo-etiquetas simplemente reforzarían el límite de decisión actual.
O para decirlo de otra manera, el límite de decisión actual solo etiquetado tendría una precisión de predicción perfecta para los datos no etiquetados (ya que eso es lo que solíamos hacer). No hay una fuerza impulsora (sin gradiente) que nos haga cambiar la ubicación de ese límite de decisión simplemente agregando los datos pseudo etiquetados.
¿Estoy en lo cierto al pensar que falta la explicación que representa el diagrama? ¿O hay algo que me falta? Si no, ¿cuál es el beneficio de las pseudo-etiquetas, dado que el límite de decisión previo al reentrenamiento tiene una precisión perfecta sobre las pseudo-etiquetas?