Preguntas etiquetadas con random-forest

El bosque aleatorio es un método de aprendizaje automático basado en la combinación de los resultados de muchos árboles de decisión.


4
¿Debería preocuparse la multicolinealidad cuando se utilizan modelos no lineales?
Digamos que tenemos un problema de clasificación binaria con características principalmente categóricas. Utilizamos algún modelo no lineal (por ejemplo, XGBoost o Random Forests) para aprenderlo. ¿Debería preocuparse por la multicolinealidad? ¿Por qué? Si la respuesta a lo anterior es verdadera, ¿cómo debería uno luchar contra ella teniendo en cuenta que …

1
Evaluar bosque aleatorio: OOB vs CV
Cuando evaluamos la calidad de un bosque aleatorio, por ejemplo, utilizando AUC, ¿es más apropiado calcular estas cantidades sobre las Muestras fuera de bolsa o sobre el conjunto de validación cruzada? Escuché que calcularlo a través de las muestras OOB ofrece una evaluación más pesimista, pero no veo por qué.

3
¿El bosque aleatorio y el refuerzo son paramétricos o no paramétricos?
Al leer el excelente modelo estadístico: Las dos culturas (Breiman 2001) , podemos aprovechar toda la diferencia entre los modelos estadísticos tradicionales (p. Ej., Regresión lineal) y los algoritmos de aprendizaje automático (p. Ej., Ensacado, bosque aleatorio, árboles potenciados ...). Breiman critica los modelos de datos (paramétricos) porque se basan …


1
Bosque aleatorio y predicción
Estoy tratando de entender cómo funciona Random Forest. Tengo una idea de cómo se construyen los árboles, pero no puedo entender cómo Random Forest hace predicciones sobre muestras fuera de bolsa. ¿Alguien podría darme una explicación simple, por favor? :)

2
¿Cuándo registrar / explicar sus variables cuando usa modelos de bosque aleatorio?
Estoy haciendo una regresión usando Random Forests para predecir precios basados ​​en varios atributos. El código está escrito en Python usando Scikit-learn. ¿Cómo decide si debe transformar sus variables usando exp/ logantes de usarlo para ajustar el modelo de regresión? ¿Es necesario cuando se utiliza un enfoque de conjunto como …




1
En Random Forest, ¿por qué se elige un subconjunto aleatorio de características a nivel de nodo en lugar de a nivel de árbol?
Mi pregunta: ¿Por qué el bosque aleatorio considera subconjuntos aleatorios de características para dividir a nivel de nodo dentro de cada árbol en lugar de a nivel de árbol ? Antecedentes: esta es una cuestión de historia. Estaño Kam Ho publicó este trabajo en la construcción de "bosques de decisión", …




5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.