¿Por qué un árbol de decisión tiene un sesgo bajo y una varianza alta?

15

Preguntas

¿Depende de si el árbol es poco profundo o profundo? ¿O podemos decir esto independientemente de la profundidad / niveles del árbol?
¿Por qué el sesgo es bajo y la varianza alta? Por favor explique intuitivamente y matemáticamente

— GeorgeOfTheRF
fuente

4

Un poco tarde para la fiesta, pero creo que esta pregunta podría usar la respuesta con ejemplos concretos.

Escribiré un resumen de este excelente artículo: sesgo-varianza-compensación , que me ayudó a entender el tema.

El error de predicción para cualquier algoritmo de aprendizaje automático se puede dividir en tres partes:

Error de sesgo
Error de varianza
Error irreducible

Error irreducible

Como su nombre lo indica, es un componente de error que no podemos corregir, independientemente del algoritmo y su selección de parámetros. El error irreducible se debe a complejidades que simplemente no se capturan en el conjunto de entrenamiento. Estos podrían ser atributos que no tenemos en un conjunto de aprendizaje, pero afectan la asignación al resultado independientemente.

Error de sesgo

El error de sesgo se debe a nuestras suposiciones sobre la función de destino. Cuantos más supuestos (restricciones) hagamos sobre las funciones de destino, más sesgos presentaremos. Los modelos con alto sesgo son menos flexibles porque hemos impuesto más reglas en las funciones de destino.

Error de variación

El error de varianza es la variabilidad de la forma de una función objetivo con respecto a diferentes conjuntos de entrenamiento. Los modelos con un pequeño error de varianza no cambiarán mucho si reemplaza un par de muestras en el conjunto de entrenamiento. Los modelos con alta varianza pueden verse afectados incluso con pequeños cambios en el conjunto de entrenamiento.

Considere una regresión lineal simple:

Y=b0+b1x

Obviamente, esta es una definición bastante restrictiva de una función objetivo y, por lo tanto, este modelo tiene un alto sesgo.

Por otro lado, debido a la baja variación si cambia un par de muestras de datos, es poco probable que esto cause cambios importantes en el mapeo general que realiza la función objetivo. Por otro lado, algoritmos como k-vecinos más cercanos tienen alta varianza y bajo sesgo. Es fácil imaginar cómo diferentes muestras podrían afectar la superficie de decisión de KNN.

En general, los algoritmos paramétricos tienen un alto sesgo y una baja varianza, y viceversa.

Uno de los desafíos del aprendizaje automático es encontrar el equilibrio correcto de error de sesgo y error de varianza.

Árbol de decisión

Ahora que tenemos estas definiciones en su lugar, también es sencillo ver que los árboles de decisión son ejemplos de modelos con bajo sesgo y alta varianza. El árbol casi no hace suposiciones sobre la función objetivo, pero es muy susceptible a la variación en los datos.

Existen algoritmos de conjunto, como la agregación bootstrapping y el bosque aleatorio, cuyo objetivo es reducir la varianza al bajo costo del sesgo en el árbol de decisión.

— John
fuente

2

Si el número de niveles es demasiado alto, es decir, un árbol de decisión complicado, el modelo tiende a sobreajustar.

Intuitivamente, se puede entender de esta manera. Cuando hay demasiados nodos de decisión para atravesar antes de llegar al resultado, es decir, el número de nodos para atravesar antes de llegar a los nodos hoja es alto, las condiciones con las que está comprobando se vuelven multiplicativas. Es decir, el cálculo se convierte en (condición 1) && (condición 2) && (condición 3) && (condición 4) && (condición5) .

Solo si se cumplen todas las condiciones, se llega a una decisión. Como puede ver, esto funcionará muy bien para el conjunto de entrenamiento, ya que está reduciendo continuamente los datos. El árbol se sintoniza mucho con los datos presentes en el conjunto de entrenamiento.

Pero cuando se alimenta un nuevo punto de datos, incluso si uno de los parámetros se desvía ligeramente, la condición no se cumplirá y tomará la rama incorrecta.

— Sujay S Kumar
fuente

1

Un árbol de decisión complicado (por ejemplo, profundo) tiene un sesgo bajo y una varianza alta. El equilibrio de sesgo-varianza depende de la profundidad del árbol.
El árbol de decisión es sensible a dónde se divide y cómo se divide. Por lo tanto, incluso pequeños cambios en los valores de las variables de entrada pueden dar como resultado una estructura de árbol muy diferente.

— Hola Mundo
fuente

44

No recuerdo un solo algoritmo de árbol ordinario afectado por el escalado, no ven los valores de las variables, solo los rangos.

— Firebug

0

¿Por qué un árbol de decisión tiene un sesgo bajo y una varianza alta? ¿Depende de si el árbol es poco profundo o profundo? ¿O podemos decir esto independientemente de la profundidad / niveles del árbol? ¿Por qué el sesgo es bajo y la varianza alta? Por favor explique intuitivamente y matemáticamente.

Sesgo vs varianza

Más sesgo = error del modelo que es más simple (no se ajusta muy bien a los datos)

Más varianza = error del modelo que es más complejo (se ajusta muy bien a los datos y aprende el ruido además de los patrones inherentes en los datos)

Todo es relativo

Quiero comenzar diciendo que todo es relativo. El árbol de decisión en general tiene un sesgo bajo y una varianza alta, digamos bosques aleatorios. Del mismo modo, un árbol menos profundo tendría mayor sesgo y menor varianza que el mismo árbol con mayor profundidad.

Comparación de la varianza de los árboles de decisión y los bosques aleatorios

Ahora con eso resuelto, pensemos por qué los árboles de decisión serían peores en varianza (mayor varianza y menor sesgo) que digamos bosques aleatorios. La forma en que funciona un algoritmo de árbol de decisión es que los datos se dividen una y otra vez a medida que avanzamos en el árbol, por lo que las predicciones reales se realizarían con cada vez menos puntos de datos. En comparación con eso, los bosques aleatorios agregan las decisiones de varios árboles, y eso también, los árboles menos correlacionados a través de la aleatorización, por lo tanto, el modelo se generaliza mejor (=> se desempeña de manera más confiable en diferentes conjuntos de datos = menor varianza). Del mismo modo, estamos haciendo suposiciones más simplificadoras sobre bosques aleatorios para consultar solo un subconjunto de datos y características que se ajusten a un solo árbol, por lo tanto, un sesgo más alto. Por cierto, similar,

— Vaibhav
fuente