Sobre la "fuerza" de los alumnos débiles


22

Tengo varias preguntas estrechamente relacionadas con los alumnos débiles en el aprendizaje conjunto (por ejemplo, impulsar).

  1. Esto puede sonar tonto, pero ¿cuáles son los beneficios de usar estudiantes débiles en lugar de fuertes? (por ejemplo, ¿por qué no impulsar con métodos de aprendizaje "fuertes"?)
  2. ¿Existe algún tipo de fuerza "óptima" para los alumnos débiles (por ejemplo, manteniendo todos los demás parámetros del conjunto fijos)? ¿Hay un "punto dulce" cuando se trata de su fuerza?
  3. ¿Cómo podemos medir la fuerza de un alumno débil con respecto a la del método de conjunto resultante? ¿Cómo medimos cuantitativamente los beneficios marginales de usar un conjunto?
  4. ¿Cómo comparamos varios algoritmos de aprendizaje débiles para decidir cuál usar para un método de conjunto dado?
  5. Si un método de conjunto dado ayuda a los clasificadores débiles más que a los fuertes, ¿cómo podemos decir que un clasificador dado ya es "demasiado fuerte" para producir ganancias significativas al impulsarlo?

Respuestas:


16

Esto puede estar más en el espíritu de embolsado, pero sin embargo:

  • Si realmente tienes un buen alumno, no hay necesidad de mejorarlo con ningún conjunto.
  • Yo diría ... irrelevante. Al mezclar y embolsar trivialmente, al aumentar la fabricación de un clasificador demasiado fuerte puede provocar algunas brechas en la convergencia (es decir, una predicción afortunada puede hacer la próxima iteración para predecir ruido puro y, por lo tanto, disminuir el rendimiento), pero esto generalmente se repara en las iteraciones en curso.
  • Nuevamente, este no es el verdadero problema. El núcleo de esos métodos es

    1. obligar a los clasificadores parciales a profundizar en el problema.
    2. une sus predicciones para atenuar el ruido y amplificar la señal.

    1) necesita un poco de atención en el impulso (es decir, un buen esquema de impulso, buen comportamiento del alumno parcial, pero esto se debe juzgar principalmente por los experimentos sobre todo el impulso), 2) en el embolsado y la mezcla (principalmente cómo garantizar la falta de correlación entre los alumnos y no pases por alto el conjunto). Mientras esto esté bien, la precisión del clasificador parcial es un problema de tercer orden.


Gracias @mbq. ¿Significa lo anterior que los clasificadores débiles generalmente se benefician más de los métodos de conjunto que los fuertes? (es decir, aumentar ayuda a los clasificadores débiles más que a los fuertes). En este sentido, ¿cómo sabemos que un clasificador dado ya es lo suficientemente fuerte para un cierto método de conjunto? (por ejemplo, ¿cómo puede decir que tiene un alumno fuerte que no se beneficiará mucho con el impulso?)
Amelio Vazquez-Reina

1
Más bien, solo los clasificadores débiles dan un espacio para mejorar. En general, la fuerza es una cualidad abstracta y realmente no podemos medirla. La única prueba segura es simplemente hacer un experimento y verificar si el ensamblaje aumenta significativamente el rendimiento. Si es así, el clasificador era débil. Si no, bueno, todavía no sabemos nada.

11

Primero, las nociones de "débil" y "fuerte" solo se definen débilmente. Desde mi punto de vista, deben definirse en relación con el clasificador Bayes óptimo, que es el objetivo de cualquier algoritmo de entrenamiento. Con esto en mente, mi respuesta a tres de los puntos es la siguiente.

  1. Computacional como yo lo veo. La mayoría de los alumnos débiles que conozco son computacionalmente rápidos (y de lo contrario no merecen consideración). Un punto importante en el aprendizaje conjunto es precisamente que podemos combinar aprendices simples y rápidos, pero no tan buenos, y mejorar la tasa de error. Si utilizamos alumnos más fuertes (y computacionalmente más exigentes), el margen de mejora se vuelve más pequeño, pero el costo computacional se hace más grande, lo que hace que el uso de métodos de conjunto sea menos interesante. Además, un solo alumno fuerte puede ser más fácil de interpretar. Sin embargo, lo que es débil y fuerte depende del problema y de la tasa óptima de Bayes que intentamos lograr. Por lo tanto, si un alumno que a menudo se considera fuerte todavía deja espacio para mejoras cuando lo impulsa y lo impulsa es factible desde el punto de vista computacional, entonces impulse ...
  2. Esto dependerá de los criterios que utilice para medir "óptimo". En términos de tasa de error, diría que no (agradezco cualquier corrección si otros tienen una experiencia diferente). En términos de velocidad, tal vez, pero me imagino que esto depende mucho del problema. No conozco ninguna literatura que aborde esto, lo siento.
  3. ?
  4. Validación cruzada, validación cruzada, validación cruzada. Al igual que cualquier otra comparación de métodos de entrenamiento con el objetivo de hacer predicciones, necesitamos estimaciones imparciales del error de generalización para la comparación, que se puede lograr dejando de lado un conjunto de datos de prueba o aproximándolo mediante la validación cruzada.

Gracias @NRH, eso es muy útil. He separado la tercera pregunta en dos preguntas separadas, ya que creo que probablemente requieren respuestas diferentes.
Amelio Vazquez-Reina

Entonces, ¿hay alguna manera de averiguar qué tan cerca está un clasificador del clasificador Bayes óptimo? Si ya está lo suficientemente cerca, entonces no podemos mejorarlo.
highBandWidth

@highBandWidth, no es posible saber cuál es la tasa de Bayes. Es una cantidad teórica que se basa en la distribución desconocida. Los supuestos teóricos pueden proporcionar límites inferiores y superiores (asintóticos), y mediante el uso de validación cruzada o datos de prueba independientes es posible estimar con precisión los límites superiores. Pero a menos que conozca la distribución, es imposible saber si dichos límites superiores son ajustados o si pueden mejorar.
NRH
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.