Preguntas etiquetadas con scikit-learn

Una biblioteca de aprendizaje automático para Python. Use esta etiqueta para cualquier pregunta sobre el tema que (a) involucre scikit-learn como parte crítica de la pregunta o respuesta esperada, y (b) no se trata solo de cómo usar scikit-learn.

3
Diferencia entre statsmodel OLS y regresión lineal scikit
Tengo una pregunta sobre dos métodos diferentes de diferentes bibliotecas que parece estar haciendo el mismo trabajo. Estoy tratando de hacer un modelo de regresión lineal. Aquí está el código que uso la biblioteca de estadísticas con OLS: X_train, X_test, y_train, y_test = cross_validation.train_test_split(x, y, test_size=0.3, random_state=1) x_train = sm.add_constant(X_train) …

2
Uso de validación cruzada anidada
La página de Scikit Learn sobre Selección de modelos menciona el uso de validación cruzada anidada: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Se realizan dos bucles de validación cruzada en paralelo: uno mediante el estimador GridSearchCV para establecer gamma y el otro mediante cross_val_score para …


2
Usando BIC para estimar el número de k en KMEANS
Actualmente estoy tratando de calcular el BIC para mi conjunto de datos de juguete (ofc iris (:). Quiero reproducir los resultados como se muestra aquí (Fig. 5). Ese documento también es mi fuente para las fórmulas de BIC. Tengo 2 problemas con esto: Notación: ninin_i = número de elementos en …

1
Cómo arreglar la no convergencia en LogisticRegressionCV
Estoy usando scikit-learn para realizar una regresión logística con validación cruzada en un conjunto de datos (aproximadamente 14 parámetros con> 7000 observaciones normalizadas). También tengo un clasificador de destino que tiene un valor de 1 o 0. El problema que tengo es que, independientemente del solucionador utilizado, sigo recibiendo advertencias …

5
¿Cómo realizar la imputación de valores en una gran cantidad de puntos de datos?
Tengo un conjunto de datos muy grande y faltan alrededor del 5% de valores aleatorios. Estas variables están correlacionadas entre sí. El siguiente conjunto de datos R de ejemplo es solo un ejemplo de juguete con datos correlacionados ficticios. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
Interpretación de salida de scikit predic_proba
Estoy trabajando con la biblioteca scikit-learn en python. En el siguiente código, estoy prediciendo la probabilidad, pero no sé cómo leer la salida. Datos de prueba from sklearn.ensemble import RandomForestClassifier as RF from sklearn import cross_validation X = np.array([[5,5,5,5],[10,10,10,10],[1,1,1,1],[6,6,6,6],[13,13,13,13],[2,2,2,2]]) y = np.array([0,1,1,0,1,2]) Dividir el conjunto de datos X_train, X_test, y_train, …

2
¿Es posible evaluar GLM en Python / scikit-learn usando las distribuciones de Poisson, Gamma o Tweedie como la familia para la distribución de errores?
Intento aprender algo de Python y Sklearn, pero para mi trabajo necesito ejecutar regresiones que utilicen distribuciones de error de las familias Poisson, Gamma y especialmente Tweedie. No veo nada en la documentación sobre ellos, pero están en varias partes de la distribución R, por lo que me preguntaba si …



1
¿Por qué una gran opción de K baja mi puntaje de validación cruzada?
Jugando con el conjunto de datos de vivienda de Boston y RandomForestRegressor(con parámetros predeterminados) en scikit-learn, noté algo extraño: la puntuación media de validación cruzada disminuyó a medida que aumentaba el número de pliegues más allá de 10. Mi estrategia de validación cruzada fue la siguiente: cv_met = ShuffleSplit(n_splits=k, test_size=1/k) …


2
¿Cuáles son las diferencias entre la regresión de Ridge usando el glmnet de R y el scikit-learn de Python?
Estoy revisando la sección LAB §6.6 sobre Regresión de cresta / lazo en el libro 'Una introducción al aprendizaje estadístico con aplicaciones en R' de James, Witten, Hastie, Tibshirani (2013). Más específicamente, estoy tratando de aplicar el Ridgemodelo scikit-learn al conjunto de datos 'Hitters' del paquete R 'ISLR'. He creado …

1
¿Para qué tipo de selección de características se puede usar la prueba de Chi cuadrado?
Aquí les pregunto qué hacen comúnmente los demás para usar la prueba de ji cuadrado para la selección de características wrt resultado en el aprendizaje supervisado. Si entiendo correctamente, ¿prueban la independencia entre cada característica y el resultado, y comparan los valores p entre las pruebas para cada característica? En …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.