Preguntas etiquetadas con random-forest

El bosque aleatorio es un clasificador de aprendizaje automático basado en la elección de subconjuntos aleatorios de variables para cada árbol y el uso de la salida de árbol más frecuente como clasificación general.


9
ValueError: la entrada contiene NaN, infinito o un valor demasiado grande para dtype ('float32')
Obtuve ValueError al predecir datos de prueba usando un modelo RandomForest. Mi código: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) El error: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). ¿Cómo encuentro los valores incorrectos en el conjunto …

1


3
Comprender predic_proba de MultiOutputClassifier
Estoy siguiendo este ejemplo en el sitio web scikit-learn para realizar una clasificación de múltiples salidas con un modelo de bosque aleatorio. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) …


4
¿Random Forest se sobreajusta?
He estado leyendo sobre los bosques aleatorios, pero realmente no puedo encontrar una respuesta definitiva sobre el problema del sobreajuste. Según el documento original de Breiman, no deberían sobreajustarse al aumentar el número de árboles en el bosque, pero parece que no hay consenso sobre esto. Esto me está creando …



5
Elija el algoritmo de clasificación binaria
Tengo un problema de clasificación binaria: Aproximadamente 1000 muestras en conjunto de entrenamiento 10 atributos, incluidos binario, numérico y categórico ¿Qué algoritmo es la mejor opción para este tipo de problema? De manera predeterminada, comenzaré con SVM (preliminar que tiene valores de atributos nominales convertidos en características binarias), ya que …

5
agrandar el mapa de calor marino
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Método de puntuación RandomForestClassifier OOB
¿La implementación aleatoria del bosque en scikit-learn utiliza la precisión media como método de puntuación para estimar el error de generalización con muestras fuera de bolsa? Esto no se menciona en la documentación, pero el método score () informa la precisión media. Tengo un conjunto de datos altamente desequilibrado, y …


1
Cuántas características para muestrear usando bosques aleatorios
La página de Wikipedia que cita "Los elementos del aprendizaje estadístico" dice: Por lo general, para un problema de clasificación con características , ⌊ √pagpagp características p ⌋se utilizan en cada división.⌊ p-√⌋⌊pag⌋\lfloor \sqrt{p}\rfloor Entiendo que esta es una conjetura bastante buena y probablemente fue confirmada por evidencia empírica, pero …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.