¿Por qué no usar siempre el aprendizaje conjunto?


13

Me parece que el aprendizaje conjunto siempre dará un mejor rendimiento predictivo que con una sola hipótesis de aprendizaje.

Entonces, ¿por qué no los usamos todo el tiempo?

¿Mi conjetura es quizás debido a limitaciones computacionales? (incluso entonces, usamos predictores débiles, así que no lo sé).


2
Porque el aprendizaje conjunto no siempre da un mejor rendimiento. Tanto el embolsado como el refuerzo funcionan en algunos casos, pero pueden degradar severamente el rendimiento en otros.
Marc Claesen

Respuestas:


12

En general, no es cierto que siempre funcionará mejor. Existen varios métodos de conjunto, cada uno con sus propias ventajas / debilidades. Cuál usar y luego depende del problema en cuestión.

Por ejemplo, si tiene modelos con alta varianza (se ajustan demasiado a sus datos), entonces es probable que se beneficie con el uso de embolsado. Si tiene modelos sesgados, es mejor combinarlos con Boosting. También hay diferentes estrategias para formar conjuntos. El tema es demasiado amplio para cubrirlo en una sola respuesta.

Pero mi punto es: si usa el método de conjunto incorrecto para su configuración, no lo hará mejor. Por ejemplo, usar Bagging con un modelo sesgado no va a ayudar.

Además, si necesita trabajar en un entorno probabilístico, es posible que los métodos de conjunto tampoco funcionen. Se sabe que Boosting (en sus formas más populares como AdaBoost) ofrece estimaciones de probabilidad pobres. Es decir, si desea tener un modelo que le permita razonar sobre sus datos, no solo sobre la clasificación, podría estar mejor con un modelo gráfico.


Un tocón de decisión está sesgado, pero se han utilizado con éxito con el embolsado.

Sí, pero el conjunto sigue siendo parcial. ¿Qué pasa si el sesgo es realmente un problema? El embolsado no ayudará a arreglarlo. ¿Podría agregar una referencia a ese caso que menciona?
jpmuc
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.