Es más fácil comenzar con su segunda pregunta y luego pasar a la primera.
Harpillera
Random Forest es un algoritmo de ensacado. Reduce la varianza.
Digamos que tiene modelos muy poco confiables, como árboles de decisión. (¿Por qué no es confiable? Porque si cambia un poco sus datos, el árbol de decisión creado puede ser muy diferente). En tal caso, puede construir un modelo robusto (reducir la varianza) a través del embolsado : el embolsado es cuando crea diferentes modelos al volver a muestrear sus datos para hacer que el modelo resultante sea más robusto.
El bosque aleatorio es lo que llamamos el ensacado aplicado a los árboles de decisión, pero no es diferente de otro algoritmo de ensacado.
Por qué querrías hacer esto? Depende del problema. Pero generalmente, es altamente deseable que el modelo sea estable.
Impulsar
Impulsar reduce la varianza y también reduce el sesgo. Reduce la variación porque está utilizando múltiples modelos (ensacado). Reduce el sesgo al entrenar el modelo posterior diciéndole qué errores cometieron los modelos anteriores (la parte de refuerzo).
Hay dos algoritmos principales:
- Adaboost: este es el algoritmo original; le dice a los modelos subsiguientes que castiguen más fuertemente las observaciones equivocadas por los modelos anteriores
- Aumento de gradiente: entrena cada modelo posterior utilizando los residuos (la diferencia entre los valores predichos y verdaderos)
En estos conjuntos, su alumno base debe ser débil. Si sobreajusta los datos, no habrá ningún residuo o error para que los modelos posteriores se basen. ¿Por qué son estos buenos modelos? Bueno, la mayoría de las competiciones en sitios web como Kaggle se han ganado utilizando árboles que aumentan el gradiente. La ciencia de datos es una ciencia empírica, "porque funciona" es lo suficientemente buena. De todos modos, tenga en cuenta que los modelos de impulso pueden sobreajustar (aunque empíricamente no es muy común).
Otra razón por la que el aumento de gradiente, en particular, también es genial: porque hace que sea muy fácil usar diferentes funciones de pérdida, incluso cuando la derivada no es convexa. Por ejemplo, cuando usa el pronóstico probabilístico, puede usar cosas como la función pinball como su función de pérdida; algo que es mucho más difícil con las redes neuronales (porque la derivada siempre es constante).
[Nota histórica interesante: el impulso fue originalmente una invención teórica motivada por la pregunta " ¿podemos construir un modelo más fuerte usando modelos más débiles "]
Aviso: las personas a veces confunden los árboles aleatorios y los árboles que aumentan el gradiente, solo porque ambos usan árboles de decisión, pero son dos familias muy diferentes de conjuntos.