Preguntas etiquetadas con scikit-learn

Una biblioteca de aprendizaje automático para Python. Use esta etiqueta para cualquier pregunta sobre el tema que (a) involucre scikit-learn como parte crítica de la pregunta o respuesta esperada, y (b) no se trata solo de cómo usar scikit-learn.


2
Métricas de clasificación de múltiples etiquetas en scikit
Estoy tratando de construir un clasificador de etiquetas múltiples para asignar temas a documentos existentes usando scikit Estoy procesando mis documentos pasándolos a través de las TfidfVectorizeretiquetas MultiLabelBinarizery creando un OneVsRestClassifiercon un SGDClassifierestimador. Sin embargo, cuando pruebo mi clasificador solo obtengo puntajes de hasta .29, que según lo que he …

2
¿El bosque al azar está sobreajustado?
Estoy experimentando con bosques aleatorios con scikit-learn y obtengo excelentes resultados de mi conjunto de entrenamiento, pero resultados relativamente pobres en mi conjunto de pruebas ... Aquí está el problema (inspirado en el póker) que estoy tratando de resolver: Dadas las cartas de mano del jugador A, las cartas de …

3
Cómo calcular los errores estándar de los coeficientes de una regresión logística
Estoy usando Pyikon-scikit-learn para entrenar y probar una regresión logística. scikit-learn devuelve los coeficientes de regresión de las variables independientes, pero no proporciona los errores estándar de los coeficientes. Necesito estos errores estándar para calcular una estadística de Wald para cada coeficiente y, a su vez, comparar estos coeficientes entre …

3
¿Por qué no usar las "ecuaciones normales" para encontrar coeficientes de mínimos cuadrados simples?
Vi esta lista aquí y no podía creer que hubiera tantas formas de resolver mínimos cuadrados. Las "ecuaciones normales" en la Wikipedia parecían ser una forma bastante α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Entonces, ¿por qué no solo usarlos? …





7
El bosque aleatorio está sobreajustado
Estoy tratando de usar Regresión forestal aleatoria en scikits-learn. El problema es que recibo un error de prueba muy alto: train MSE, 4.64, test MSE: 252.25. Así es como se ven mis datos: (azul: datos reales, verde: predicho): Estoy usando 90% para entrenamiento y 10% para prueba. Este es el …

3
Regresión logística: Scikit Learn vs glmnet
Estoy tratando de duplicar los resultados de sklearnla biblioteca de regresión logística usando el glmnetpaquete en R. A partir de la documentación desklearn regresión logística , está tratando de minimizar la función de costo bajo penalización l2 minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1norteIniciar sesión⁡(Exp⁡(-yyo(XyoTw+C))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) De las viñetas de …

3
Métodos para solucionar el problema de la falta de datos en el aprendizaje automático
Prácticamente cualquier base de datos que queremos hacer predicciones utilizando algoritmos de aprendizaje automático encontrará valores faltantes para algunas de las características. Existen varios enfoques para abordar este problema, para excluir líneas que tienen valores faltantes hasta que se llenen con los valores medios de las características. Me gustaría utilizar …

2
¿Diferencia entre seleccionar entidades basadas en la "regresión F" y en los valores ?
¿Comparar características usando F-regressionlo mismo que correlacionar características con la etiqueta individualmente y observando el valor ?R2R2R^2 A menudo he visto a mis colegas usar una F regressionselección de funciones para su canal de aprendizaje automático de sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Algunos, por favor, díganme: ¿por qué da los mismos resultados que …


2
Scikit forma correcta de calibrar clasificadores con CalibratedClassifierCV
Scikit tiene CalibratedClassifierCV , que nos permite calibrar nuestros modelos en un par X, y particular. También establece claramente quedata for fitting the classifier and for calibrating it must be disjoint. Si deben ser disjuntos, ¿es legítimo entrenar al clasificador con lo siguiente? model = CalibratedClassifierCV(my_classifier) model.fit(X_train, y_train) Me temo …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.