Ciencia de los datos xgboost

3

Necesita ayuda para comprender la propuesta aproximada de puntos divididos de xgboost

antecedentes: En xgboost, la iteración intenta ajustar un árbol sobre todos los ejemplos, lo que minimiza el siguiente objetivo:tttftftf_tnnn ∑i=1n[gift(xi)+12hif2t(xi)]∑i=1n[gift(xi)+12hift2(xi)]\sum_{i=1}^n[g_if_t(x_i) + \frac{1}{2}h_if_t^2(x_i)] donde son primer orden y de segundo orden sobre nuestra mejor estimación anterior (de la iteración ):gi,higi,hig_i, h_iy^y^\hat{y}t−1t−1t-1 gi=dy^l(yi,y^)gi=dy^l(yi,y^)g_i=d_{\hat{y}}l(y_i, \hat{y}) hi=d2y^l(yi,y^)hi=dy^2l(yi,y^)h_i=d^2_{\hat{y}}l(y_i, \hat{y}) y es nuestra función de pérdida.lll …

12 xgboost gbm

1

¿Cuántas celdas LSTM debo usar?

¿Existen reglas generales (o reglas reales) relacionadas con la cantidad mínima, máxima y "razonable" de celdas LSTM que debo usar? Específicamente me relaciono con BasicLSTMCell de TensorFlow y la num_unitspropiedad. Suponga que tengo un problema de clasificación definido por: t - number of time steps n - length of input …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

¿Hay algún buen modelo de lenguaje listo para usar para Python?

Estoy creando prototipos de una aplicación y necesito un modelo de lenguaje para calcular la perplejidad en algunas oraciones generadas. ¿Hay algún modelo de lenguaje entrenado en Python que pueda usar fácilmente? Algo simple como model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

¿Cuál es la diferencia en xgboost binary: logistic y reg: logistic

¿Cuál es la diferencia en R en xgboost entre binary: logistic y reg: logistic? ¿Es solo en métrica de evaluación? En caso afirmativo, ¿cómo se compara RMSE en la clasificación binaria con la tasa de error? ¿La relación entre las métricas es más o menos monótona, el resultado del ajuste …

11 r logistic-regression xgboost

3

XGboost - Elección hecha por modelo

Estoy usando XGboost para predecir una variable objetivo de 2 clases en reclamaciones de seguros. Tengo un modelo (entrenamiento con validación cruzada, ajuste de hiperparámetros, etc.) que ejecuto en otro conjunto de datos. Mi pregunta es : ¿Hay alguna manera de saber por qué un reclamo dado se ha visto …

10 xgboost

1

Gradient Boosting Tree: "cuanto más variable, mejor"?

Del tutorial de XGBoost, creo que cuando crece cada árbol, se escanean todas las variables para seleccionarlas para dividir los nodos, y se elegirá la que tenga la división de ganancia máxima. Entonces, mi pregunta es: ¿qué sucede si agrego algunas variables de ruido en el conjunto de datos, estas …

10 xgboost self-study

1

Salida de regresión lineal XGBoost incorrecta

Soy un novato en XGBoost, así que perdona mi ignorancia. Aquí está el código de Python: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred …

10 python linear-regression xgboost

2

¿Cuándo elegir regresión lineal o árbol de decisión o regresión de bosque aleatorio? [cerrado]

Cerrada . Esta pregunta necesita estar más centrada . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que se centre en un problema solo editando esta publicación . Cerrado hace 4 años . Estoy trabajando en un proyecto y tengo dificultades para decidir qué algoritmo …

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

1

¿Qué se entiende por Distribuido para una biblioteca de aumento de gradiente?

Estoy revisando la documentación de XGBoost y se dice que XGBoost es una biblioteca optimizada de aumento de gradiente distribuido . ¿Qué se entiende por distribuido? Que tengas un buen día

9 xgboost distributed boosting

4

¿La ingeniería de características sigue siendo útil cuando se usa XGBoost?

Estaba leyendo el material relacionado con XGBoost. Parece que este método no requiere ninguna escala variable ya que se basa en árboles y este puede capturar patrones complejos de no linealidad, interacciones. Y puede manejar variables numéricas y categóricas y también parece que las variables redundantes no afectan demasiado este …

9 xgboost feature-engineering

4

¿Por qué hay una diferencia entre predecir en el conjunto de validación y el conjunto de prueba?

Tengo un modelo XGBoost que intenta predecir si una moneda subirá o bajará el próximo período (5 min). Tengo un conjunto de datos de 2004 a 2018. Divido los datos aleatorizados en 95% de validación de tren y 5% y la precisión en el conjunto de Validación es de hasta …

8 machine-learning xgboost

1

XGBoost para clasificación binaria: elegir el umbral correcto

Estoy trabajando en un conjunto de datos con etiquetas binarias altamente desequilibradas, donde el número de etiquetas verdaderas es solo del 7% de todo el conjunto de datos. Pero alguna combinación de características podría producir un número de unidades superior al promedio en un subconjunto. Por ejemplo, tenemos el siguiente …

8 decision-trees xgboost

Preguntas etiquetadas con xgboost