¿El bosque aleatorio necesita variables de entrada para escalar o centrar?


16

Mis variables de entrada tienen diferentes dimensiones. Algunas variables son decimales, mientras que otras son cientos. ¿Es esencial centrar (restar la media) o escalar (dividir por desviación estándar) estas variables de entrada para que los datos no tengan dimensiones cuando se utiliza un bosque aleatorio?

Respuestas:


29

No.

Los bosques aleatorios se basan en algoritmos de partición de árboles.

Como tal, no existe un análogo a un coeficiente que se obtiene en las estrategias de regresión general, que dependerían de las unidades de las variables independientes. En cambio, uno obtiene una colección de reglas de partición, básicamente una decisión dado un umbral, y esto no debería cambiar con el escalado. En otras palabras, los árboles solo ven filas en las características.

Básicamente, cualquier transformación monotónica de sus datos no debería cambiar el bosque en absoluto (en las implementaciones más comunes).

Además, los árboles de decisión son usualmente robustos a las inestabilidades numéricas que a veces perjudican la convergencia y precisión en otros algoritmos.


0

En general, estoy de acuerdo con Firebug, pero podría haber algún valor en estandarizar sus variables si está interesado en los puntajes de importancia del predictor. RF tenderá a favorecer predictores continuos muy variables porque hay más oportunidades para particionar los datos. Sin embargo, una mejor manera de abordar este problema es utilizar enfoques particulares (es decir, muestreo sin reemplazo utilizando bosques condicionales) que sean más robustos a este sesgo. Ver https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Bienvenido al sitio. Estamos tratando de construir un repositorio permanente de información estadística de alta calidad en forma de preguntas y respuestas. Por lo tanto, desconfiamos de las respuestas de solo enlace, debido a linkrot. ¿Puede publicar una cita completa y un resumen de la información en el enlace, en caso de que falle?
gung - Restablece a Monica
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.