Ciencia de los datos python

2

¿En qué parte del flujo de trabajo debemos tratar los datos faltantes?

Estoy construyendo un flujo de trabajo para crear modelos de aprendizaje automático (en mi caso, usando Python pandasy sklearnpaquetes) a partir de datos extraídos de una base de datos muy grande (aquí, Vertica a través de SQL y pyodbc), y un paso crítico en ese proceso implica que faltan valores …

16 machine-learning python pandas scikit-learn

2

Recomienda películas con funciones adicionales mediante el filtrado colaborativo

Estoy tratando de construir un sistema de recomendación usando filtrado colaborativo. Tengo la [user, movie, rating]información habitual . Me gustaría incorporar una función adicional como 'idioma' o 'duración de la película'. No estoy seguro de qué técnicas podría utilizar para tal problema. Por favor, sugiera referencias o paquetes en python …

16 python r recommender-system

4

Biblioteca de Python para regresión segmentada (también conocida como regresión por partes)

Estoy buscando una biblioteca de Python que pueda realizar una regresión segmentada (también conocida como regresión por partes) . Ejemplo :

16 python linear-regression library software-recommendation

3

¿Clasificación discriminatoria de una clase con antecedentes negativos desequilibrados y heterogéneos?

Estoy trabajando para mejorar un clasificador supervisado existente, para clasificar las secuencias de {proteína} como pertenecientes a una clase específica (precursores de hormonas neuropéptidas), o no. Hay alrededor de 1.150 "positivos" conocidos, en un contexto de aproximadamente 13 millones de secuencias de proteínas ("Fondo desconocido / mal anotado"), o alrededor …

16 machine-learning data-mining python classification

6

¿Cuál es la razón detrás de tomar la transformación de registro de pocas variables continuas?

He estado haciendo un problema de clasificación y he leído el código y los tutoriales de muchas personas. Una cosa que he notado es que muchas personas toman np.logo logde variables continuas como loan_amounto applicant_incomeetc. Solo quiero entender la razón detrás de esto. ¿Ayuda a mejorar la precisión de predicción …

16 machine-learning python classification scikit-learn

5

agrandar el mapa de calor marino

Creo un corr()df a partir de un df original. El corr()DF salió 70 X 70 y es imposible de visualizar el mapa de calor ... sns.heatmap(df). Si trato de mostrar corr = df.corr(), la tabla no se ajusta a la pantalla y puedo ver todas las correlaciones. ¿Es una forma …

16 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

¿Cómo obtener predicciones con predict_generator en la transmisión de datos de prueba en Keras?

En el blog de Keras sobre capacitación de redes de comunicación desde cero , el código muestra solo la red que se ejecuta en datos de capacitación y validación. ¿Qué pasa con los datos de prueba? ¿Los datos de validación son los mismos que los datos de prueba (creo que …

16 machine-learning python deep-learning keras confusion-matrix

4

¿Los pandas ahora son más rápidos que data.table?

https://github.com/Rdatatable/data.table/wiki/Benchmarks-%3A-Grouping Los puntos de referencia data.table no se han actualizado desde 2014. Escuché en algún lugar que Pandasahora es más rápido que data.table. ¿Es esto cierto? ¿Alguien ha hecho alguna referencia? ¿Nunca he usado Python antes pero consideraría cambiar si pandaspuede vencer data.table?

16 python r pandas data data.table

5

Biblioteca de Python para implementar modelos ocultos de Markov

¿Qué biblioteca estable de Python puedo usar para implementar modelos ocultos de Markov? Necesito que esté razonablemente bien documentado, porque nunca antes había usado este modelo. Alternativamente, ¿existe un enfoque más directo para realizar un análisis de series de tiempo en un conjunto de datos utilizando HMM?

15 python time-series markov-process

5

Predicción de similitud de oraciones

Estoy tratando de resolver el siguiente problema: tengo un conjunto de oraciones como mi conjunto de datos, y quiero poder escribir una nueva oración y encontrar la oración con la que la nueva es más similar en el conjunto de datos. Un ejemplo se vería así: Nueva oración: " I …

15 python nlp scikit-learn similarity text

2

¿Por qué las variables de tren y datos de prueba se definen usando la letra mayúscula (en Python)?

Espero que esta pregunta sea la más adecuada en este sitio ... En Python, por lo general, el nombre de la clase se define utilizando la letra mayúscula como primer carácter, por ejemplo class Vehicle: ... Sin embargo, en el campo del aprendizaje automático, a menudo los datos de entrenamiento …

15 python dataset

2

¿Cómo funciona SelectKBest?

Estoy viendo este tutorial: https://www.dataquest.io/mission/75/improving-your-submission En la sección 8, que encuentra las mejores características, muestra el siguiente código. import numpy as np from sklearn.feature_selection import SelectKBest, f_classif predictors = ["Pclass", "Sex", "Age", "SibSp", "Parch", "Fare", "Embarked", "FamilySize", "Title", "FamilyId"] # Perform feature selection selector = SelectKBest(f_classif, k=5) selector.fit(titanic[predictors], titanic["Survived"]) # …

15 python scikit-learn

1

¿Es necesario el muestreo estratificado (bosque aleatorio, Python)?

Utilizo Python para ejecutar un modelo de bosque aleatorio en mi conjunto de datos desequilibrado (la variable de destino era una clase binaria). Al dividir el conjunto de datos de entrenamiento y prueba, luché si usar muestreo estratificado (como el código que se muestra) o no. Hasta ahora, observé en …

14 machine-learning python random-forest sampling training

2

Modelo de clasificación binaria para datos no balanceados

Tengo un conjunto de datos con las siguientes especificaciones: Conjunto de datos de entrenamiento con 193,176 muestras con 2,821 positivos Conjunto de datos de prueba con 82.887 muestras con 673 positivos Hay 10 características. Quiero realizar una clasificación binaria (0 o 1). El problema que enfrento es que los datos …

14 machine-learning python classification logistic-regression

5

¿Las bibliotecas modernas de R y / o Python hacen que SQL sea obsoleto?

Trabajo en una oficina donde SQL Server es la columna vertebral de todo lo que hacemos, desde el procesamiento de datos hasta la limpieza y el mung. Mi colega se especializa en escribir funciones complejas y procedimientos almacenados para procesar metódicamente los datos entrantes para que puedan estandarizarse y ponerse …

14 python r data-cleaning data sql

Preguntas etiquetadas con python