Estoy haciendo una tarea sobre árboles de decisión, y una de las preguntas que tengo que responder es "¿Por qué los estimadores están construidos a partir de árboles sesgados, y cómo ayuda el embolsado a reducir su variación?".
Ahora, sé que los modelos sobreajustados tienden a tener un sesgo realmente bajo, porque intentan ajustar todos los puntos de datos. Y tenía un script en Python que ajustaba un árbol a algún conjunto de datos (con una sola característica. Era solo una sinusoide, con algunos puntos de desconexión, la imagen a continuación). Entonces, me pregunté "bueno, si realmente sobreajusto los datos, ¿puedo llevar el sesgo a cero?". Y resultó que, incluso con una profundidad de 10000, todavía hay algunos puntos a través de los cuales la curva no pasa.
Intenté buscar por qué, pero realmente no pude encontrar una explicación. Supongo que puede haber algunos árboles que atraviesen perfectamente todos los puntos, y que los que obtuve fueron simplemente "mala suerte". O que tal vez un conjunto de datos diferente podría haberme dado un resultado imparcial (¿tal vez una sinusoide perfecta?). O incluso eso, tal vez los recortes realizados al principio hicieron imposible que más recortes separen completamente todos los puntos.
Entonces, teniendo en cuenta este conjunto de datos (ya que podría ser diferente para otros), mi pregunta es: ¿es posible sobreajustar un árbol hasta el punto en que el sesgo llegue a cero, o siempre habrá algún sesgo, incluso si realmente ¿pequeña? Y si siempre hay al menos algún sesgo, ¿por qué sucede eso?
PD: No sé si podría ser relevante, pero utilicé DecisionTreeRegressor
from sklearn
para ajustar el modelo a los datos.