Preguntas etiquetadas con scikit-learn

Scikit-learn es un módulo de Python que comprende una herramienta simple y eficiente para el aprendizaje automático, la minería de datos y el análisis de datos. Está construido en NumPy, SciPy y matplotlib. Se distribuye bajo la licencia BSD de 3 cláusulas.

2
¿Puedes explicar la diferencia entre SVC y LinearSVC en scikit-learn?
Recientemente comencé a aprender a trabajar sklearny acabo de encontrar este resultado peculiar. Utilicé el digitsconjunto de datos disponible sklearnpara probar diferentes modelos y métodos de estimación. Cuando probé un modelo de máquina de vectores de soporte en los datos, descubrí que hay dos clases diferentes sklearnpara la clasificación SVM: …
19 svm  scikit-learn 

1
¿Cómo lidiar con las etiquetas de cadena en la clasificación de varias clases con keras?
Soy novato en aprendizaje automático y keras y ahora estoy trabajando en un problema de clasificación de imágenes de varias clases usando keras. La entrada es imagen etiquetada. Después de un procesamiento previo, los datos de entrenamiento se representan en la lista de Python como: [["dog", "path/to/dog/imageX.jpg"],["cat", "path/to/cat/imageX.jpg"], ["bird", "path/to/cat/imageX.jpg"]] …


1
Algoritmos para agrupamiento de texto
Tengo el problema de agrupar una gran cantidad de oraciones en grupos por sus significados. Esto es similar a un problema cuando tienes muchas oraciones y quieres agruparlas por sus significados. ¿Qué algoritmos se sugieren para hacer esto? No sé la cantidad de clústeres de antemano (y a medida que …

5
Fusionar datos escasos y densos en el aprendizaje automático para mejorar el rendimiento
Tengo características dispersas que son predictivas, también tengo algunas características densas que también son predictivas. Necesito combinar estas características para mejorar el rendimiento general del clasificador. Ahora, cuando trato de combinar estos elementos, las características densas tienden a dominar más que las características dispersas, por lo tanto, solo proporcionan un …



5
agrandar el mapa de calor marino
Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …
16 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

1
Método de puntuación RandomForestClassifier OOB
¿La implementación aleatoria del bosque en scikit-learn utiliza la precisión media como método de puntuación para estimar el error de generalización con muestras fuera de bolsa? Esto no se menciona en la documentación, pero el método score () informa la precisión media. Tengo un conjunto de datos altamente desequilibrado, y …

5
Predicción de similitud de oraciones
Estoy tratando de resolver el siguiente problema: tengo un conjunto de oraciones como mi conjunto de datos, y quiero poder escribir una nueva oración y encontrar la oración con la que la nueva es más similar en el conjunto de datos. Un ejemplo se vería así: Nueva oración: " I …

2
¿Cómo funciona SelectKBest?
Estoy viendo este tutorial: https://www.dataquest.io/mission/75/improving-your-submission En la sección 8, que encuentra las mejores características, muestra el siguiente código. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

3
Pandas Dataframe a DMatrix
Estoy tratando de ejecutar xgboost en scikit learn. Y solo uso Pandas para cargar datos en el marco de datos. ¿Cómo se supone que debo usar pandas df con xgboost? Estoy confundido por la rutina DMatrix requerida para ejecutar xgboost algo.

1
Importancia de la característica con características categóricas de alta cardinalidad para la regresión (variable de representación numérica)
Intenté usar las características de las características de los bosques aleatorios para realizar una selección empírica de características para un problema de regresión donde todas las características son categóricas y muchas de ellas tienen muchos niveles (del orden de 100-1000). Dado que la codificación única crea una variable ficticia para …


1
Selección de características mediante la importación de características en bosques aleatorios con scikit-learn
He trazado las características importantes en bosques aleatorios con scikit-learn . Para mejorar la predicción utilizando bosques aleatorios, ¿cómo puedo usar la información de la parcela para eliminar características? Es decir, ¿cómo detectar si una característica es inútil o incluso peor, la disminución del rendimiento de los bosques al azar, …

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.