Estadísticas y Big Data scikit-learn

3

Árboles impulsados por el gradiente XGBoost vs Python Sklearn

Estoy tratando de entender cómo funciona XGBoost. Ya entiendo cómo funcionan los árboles impulsados por gradiente en Python sklearn. Lo que no está claro para mí es si XGBoost funciona de la misma manera, pero más rápido, o si hay diferencias fundamentales entre él y la implementación de Python. Cuando …

20 scikit-learn boosting gbm xgboost

2

Métricas de clasificación de múltiples etiquetas en scikit

Estoy tratando de construir un clasificador de etiquetas múltiples para asignar temas a documentos existentes usando scikit Estoy procesando mis documentos pasándolos a través de las TfidfVectorizeretiquetas MultiLabelBinarizery creando un OneVsRestClassifiercon un SGDClassifierestimador. Sin embargo, cuando pruebo mi clasificador solo obtengo puntajes de hasta .29, que según lo que he …

19 scikit-learn multi-class multilabel

2

¿El bosque al azar está sobreajustado?

Estoy experimentando con bosques aleatorios con scikit-learn y obtengo excelentes resultados de mi conjunto de entrenamiento, pero resultados relativamente pobres en mi conjunto de pruebas ... Aquí está el problema (inspirado en el póker) que estoy tratando de resolver: Dadas las cartas de mano del jugador A, las cartas de …

19 classification random-forest scikit-learn

3

Cómo calcular los errores estándar de los coeficientes de una regresión logística

Estoy usando Pyikon-scikit-learn para entrenar y probar una regresión logística. scikit-learn devuelve los coeficientes de regresión de las variables independientes, pero no proporciona los errores estándar de los coeficientes. Necesito estos errores estándar para calcular una estadística de Wald para cada coeficiente y, a su vez, comparar estos coeficientes entre …

18 logistic python standard-error regression-coefficients scikit-learn

3

¿Por qué no usar las "ecuaciones normales" para encontrar coeficientes de mínimos cuadrados simples?

Vi esta lista aquí y no podía creer que hubiera tantas formas de resolver mínimos cuadrados. Las "ecuaciones normales" en la Wikipedia parecían ser una forma bastante α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Entonces, ¿por qué no solo usarlos? …

17 regression least-squares scikit-learn

3

¿Cómo obtener hiperparámetros en la validación cruzada anidada?

He leído las siguientes publicaciones para la validación cruzada anidada y todavía no estoy 100% seguro de lo que debo hacer con la selección del modelo con validación cruzada anidada: Validación cruzada anidada para la selección del modelo Selección de modelo y validación cruzada: la forma correcta Para explicar mi …

17 cross-validation scikit-learn hyperparameter

3

¿Cómo eliminar sistemáticamente las variables colineales en Python? [cerrado]

Cerrado. Esta pregunta está fuera de tema . Actualmente no está aceptando respuestas. ¿Quieres mejorar esta pregunta? Actualice la pregunta para que esté en el tema de Cross Validated. Cerrado hace 2 años . Hasta ahora, he eliminado las variables colineales como parte del proceso de preparación de datos al …

17 python multicollinearity scikit-learn

3

Variables colineales en el entrenamiento Multiclass LDA

Estoy entrenando un clasificador LDA multiclase con 8 clases de datos. Mientras realizo el entrenamiento, recibo una advertencia de: " Las variables son colineales " Estoy obteniendo una precisión de entrenamiento de más del 90% . Estoy usando la biblioteca scikits-learn en Python do train y pruebo los datos de …

16 machine-learning classification python scikit-learn discriminant-analysis

6

Implementación SVM más rápida

Más de una pregunta general. Estoy ejecutando un SVM rbf para el modelado predictivo. Creo que mi programa actual definitivamente necesita un poco más de velocidad. Yo uso scikit learn con una búsqueda de grilla gruesa a fina + validación cruzada. Cada ejecución de SVM toma alrededor de un minuto, …

16 machine-learning svm predictive-models scikit-learn kernel-trick

7

El bosque aleatorio está sobreajustado

Estoy tratando de usar Regresión forestal aleatoria en scikits-learn. El problema es que recibo un error de prueba muy alto: train MSE, 4.64, test MSE: 252.25. Así es como se ven mis datos: (azul: datos reales, verde: predicho): Estoy usando 90% para entrenamiento y 10% para prueba. Este es el …

15 regression random-forest scikit-learn

3

Regresión logística: Scikit Learn vs glmnet

Estoy tratando de duplicar los resultados de sklearnla biblioteca de regresión logística usando el glmnetpaquete en R. A partir de la documentación desklearn regresión logística , está tratando de minimizar la función de costo bajo penalización l2 minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1norteIniciar sesión⁡(Exp⁡(-yyo(XyoTw+C))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) De las viñetas de …

15 r logistic python scikit-learn glmnet

3

Métodos para solucionar el problema de la falta de datos en el aprendizaje automático

Prácticamente cualquier base de datos que queremos hacer predicciones utilizando algoritmos de aprendizaje automático encontrará valores faltantes para algunas de las características. Existen varios enfoques para abordar este problema, para excluir líneas que tienen valores faltantes hasta que se llenen con los valores medios de las características. Me gustaría utilizar …

15 machine-learning scikit-learn data-imputation

2

¿Diferencia entre seleccionar entidades basadas en la "regresión F" y en los valores ?

¿Comparar características usando F-regressionlo mismo que correlacionar características con la etiqueta individualmente y observando el valor ?R2R2R^2 A menudo he visto a mis colegas usar una F regressionselección de funciones para su canal de aprendizaje automático de sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Algunos, por favor, díganme: ¿por qué da los mismos resultados que …

15 feature-selection python scikit-learn r-squared f-test

2

¿Por qué la función de arranque scikit-learn vuelve a muestrear el conjunto de prueba?

Cuando utilicé bootstrapping para la evaluación del modelo, siempre pensé que las muestras fuera de bolsa se usaban directamente como un conjunto de prueba. Sin embargo, este no parece ser el caso del enfoque obsoleto de scikit-learnBootstrap , que parece construir el conjunto de prueba a partir del dibujo con …

15 cross-validation bootstrap random-forest scikit-learn bagging

2

Scikit forma correcta de calibrar clasificadores con CalibratedClassifierCV

Scikit tiene CalibratedClassifierCV , que nos permite calibrar nuestros modelos en un par X, y particular. También establece claramente quedata for fitting the classifier and for calibrating it must be disjoint. Si deben ser disjuntos, ¿es legítimo entrenar al clasificador con lo siguiente? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Me temo …

14 cross-validation scikit-learn validation train calibration

Preguntas etiquetadas con scikit-learn