Estadísticas y Big Data random-forest

1

¿Por qué una gran opción de K baja mi puntaje de validación cruzada?

Jugando con el conjunto de datos de vivienda de Boston y RandomForestRegressor(con parámetros predeterminados) en scikit-learn, noté algo extraño: la puntuación media de validación cruzada disminuyó a medida que aumentaba el número de pliegues más allá de 10. Mi estrategia de validación cruzada fue la siguiente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …

11 machine-learning cross-validation random-forest sample-size scikit-learn

2

Árboles de decisión y regresión: ¿pueden los valores pronosticados estar fuera del rango de datos de entrenamiento?

Cuando se trata de árboles de decisión, ¿puede el valor predicho quedar fuera del rango de los datos de entrenamiento? Por ejemplo, si el rango del conjunto de datos de entrenamiento de la variable objetivo es 0-100, cuando genero mi modelo y lo aplico a otra cosa, ¿pueden mis valores …

11 regression predictive-models random-forest cart

2

Muestreo con reemplazo en R randomForest

La implementación randomForest no permite el muestreo más allá del número de observaciones, incluso cuando se realiza un muestreo con reemplazo. ¿Por qué es esto? Funciona bien: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Lo que quiero hacer: rf …

11 r sampling random-forest stratification oversampling

2

Muestreo MCMC del espacio del árbol de decisión vs. bosque aleatorio

Un bosque aleatorio es una colección de árboles de decisión formados seleccionando aleatoriamente solo ciertas características con las que construir cada árbol (y algunas veces empaquetando los datos de entrenamiento). Aparentemente aprenden y generalizan bien. ¿Alguien ha realizado un muestreo MCMC del espacio del árbol de decisión o los ha …

11 mcmc monte-carlo random-forest cart

1

Reducción del número de niveles de variable predictiva categórica desordenada

Quiero entrenar un clasificador, digamos SVM, o bosque aleatorio, o cualquier otro clasificador. Una de las características del conjunto de datos es una variable categórica con 1000 niveles. ¿Cuál es la mejor manera de reducir el número de niveles en esta variable? En R hay una función llamada combine.levels()en el …

11 classification svm random-forest many-categories

2

¿Hay alguna manera de explicar una predicción de un modelo forestal aleatorio?

Digamos que tengo un modelo de clasificación predictivo basado en un bosque aleatorio (usando el paquete randomForest en R). Me gustaría configurarlo para que los usuarios finales puedan especificar un elemento para generar una predicción y generará una probabilidad de clasificación. Hasta ahora, no hay problema. Pero sería útil / …

11 machine-learning random-forest

2

¿Por qué un árbol en saco / árbol forestal aleatorio tiene mayor sesgo que un árbol de decisión único?

Si consideramos un árbol de decisión completamente desarrollado (es decir, un árbol de decisión no podado) tiene una alta varianza y un bajo sesgo. El ensacado y los bosques aleatorios usan estos modelos de alta varianza y los agregan para reducir la varianza y así mejorar la precisión de la …

11 variance random-forest cart bias bagging

2

¿Qué se entiende por proximidad en bosques aleatorios?

Encontré el término proximidad en bosques al azar. Pero no podía entender lo que hace en bosques al azar. ¿Cómo ayuda para fines de clasificación?

11 machine-learning random-forest

1

Motivación detrás de los pasos aleatorios del algoritmo forestal

El método con el que estoy familiarizado para construir un bosque aleatorio es el siguiente: (de http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm ) Para construir un árbol en el bosque nosotros: Bootstrap una muestra de tamaño N donde N es el tamaño de nuestro conjunto de entrenamiento. Use esta muestra de arranque como el conjunto …

11 machine-learning classification random-forest

1

¿Cómo calcular las puntuaciones de confianza en la regresión (con bosques aleatorios / XGBoost) para cada predicción en R?

¿Hay alguna manera de obtener un puntaje de confianza (podemos llamarlo también valor de confianza o probabilidad) para cada valor pronosticado cuando se usan algoritmos como Bosques aleatorios o Incremento de gradiente extremo (XGBoost)? Digamos que este puntaje de confianza iría de 0 a 1 y mostraría cuán seguro estoy …

11 r regression random-forest prediction boosting

1

¿Debo elegir el regresor o clasificador Random Forest?

Encajo un conjunto de datos con una clase de destino binaria por el bosque aleatorio. En python, puedo hacerlo mediante randomforestclassifier o randomforestregressor. Puedo obtener la clasificación directamente de randomforestclassifier o podría ejecutar randomforestregressor primero y obtener un conjunto de puntajes estimados (valor continuo). Entonces puedo encontrar un valor de …

11 python random-forest

1

Significado del eje y en el gráfico de dependencia parcial del bosque aleatorio

Estoy usando el RandomForestpaquete R y estoy confundido sobre cómo interpretar los valores del eje Y en sus gráficos de dependencia parcial. Los documentos de ayuda indican que la gráfica es una "representación gráfica del efecto marginal de una variable en la probabilidad de la clase". Sin embargo, todavía estoy …

11 r interpretation random-forest partial-plot

2

¿Mejor rendimiento con Random Forest one-Vs-All que Random Forest multiclass?

Estoy trabajando en un problema multiclase con 9 etiquetas posibles, para las cuales tengo un conjunto de datos que consta de ~ 50,000 ejemplos y ~ 200 características cada uno. Cada ejemplo solo puede pertenecer a una clase. Los datos están bastante equilibrados entre las diferentes etiquetas. Dada su robustez …

11 random-forest scikit-learn multi-class

1

¿Es 'justo' establecer una semilla en una regresión forestal aleatoria para obtener la mayor precisión?

Tengo una regresión forestal aleatoria construida usando skl y noto que produzco diferentes resultados basados en establecer la semilla aleatoria en diferentes valores. Si uso LOOCV para establecer qué semilla funciona mejor, ¿es este un método válido?

10 cross-validation random-forest

1

¿Por qué mis resultados de bosque aleatorios son tan variables?

Estoy tratando de probar la capacidad del bosque aleatorio para clasificar muestras entre 2 grupos; Hay 54 muestras y un número variable de variables utilizadas para la clasificación. Me preguntaba por qué las estimaciones de fuera de bolsa (OOB) pueden variar hasta un 5% entre sí, incluso cuando estoy usando …

10 machine-learning random-forest

Preguntas etiquetadas con random-forest