Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados ​​en aprender más sobre el campo

2
Consecuencia del escalado de características
Actualmente estoy usando SVM y escalando mis características de entrenamiento al rango de [0,1]. Primero ajusto / transformo mi conjunto de entrenamiento y luego aplico la misma transformación a mi conjunto de prueba. Por ejemplo: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) …


4
Uso de la agrupación en el procesamiento de texto
Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de …

3
Relación entre KS, AUROC y Gini
Las estadísticas comunes de validación de modelos como la prueba de Kolmogorov-Smirnov (KS), AUROC y el coeficiente de Gini están relacionadas funcionalmente. Sin embargo, mi pregunta tiene que ver con probar cómo están todos relacionados. Tengo curiosidad por saber si alguien puede ayudarme a probar estas relaciones. No he podido …

2
Contabilidad de experimentos y resultados
Soy un investigador práctico y me gusta probar soluciones viables, por lo que tiendo a hacer muchos experimentos. Por ejemplo, si estoy calculando un puntaje de similitud entre documentos, me gustaría probar muchas medidas. De hecho, para cada medida podría necesitar hacer varias corridas para probar el efecto de algunos …

3
Aprendizaje de funciones no supervisadas para NER
He implementado el sistema NER con el uso del algoritmo CRF con mis características artesanales que dieron resultados bastante buenos. El caso es que utilicé muchas características diferentes, incluidas etiquetas POS y lemas. Ahora quiero hacer el mismo NER para un idioma diferente. El problema aquí es que no puedo …

1
Implementación de t-SNE Python: divergencia Kullback-Leibler
t-SNE, como en [1], funciona reduciendo progresivamente la divergencia Kullback-Leibler (KL), hasta que se cumpla una determinada condición. Los creadores de t-SNE sugieren utilizar la divergencia KL como criterio de rendimiento para las visualizaciones: puede comparar las divergencias de Kullback-Leibler que informa t-SNE. Está perfectamente bien ejecutar t-SNE diez veces …

4
Trabajando con clústeres HPC
En mi universidad, tenemos un clúster de computación HPC. Yo uso el clúster para entrenar clasificadores, etc. Entonces, por lo general, para enviar un trabajo al clúster (por ejemplo, script de python scikit-learn), necesito escribir un script de Bash que contenga (entre otros) un comando como qsub script.py. Sin embargo, …


3
Conjunto de datos orientado a la ciencia de datos / pregunta de investigación para la tesis de maestría en estadística
Me gustaría explorar la 'ciencia de datos'. El término me parece un poco vago, pero espero que requiera: aprendizaje automático (en lugar de estadísticas tradicionales); un conjunto de datos lo suficientemente grande como para ejecutar análisis en clústeres. ¿Cuáles son algunos buenos conjuntos de datos y problemas, accesibles para un …


3
¿Cómo procesar consultas de lenguaje natural?
Tengo curiosidad por las consultas en lenguaje natural. Stanford tiene lo que parece ser un sólido conjunto de software para procesar lenguaje natural . También he visto la biblioteca Apache OpenNLP y la Arquitectura general para la ingeniería de texto . Hay una increíble cantidad de usos para el procesamiento …
11 nlp 


1
parámetro scikit-learn n_jobs sobre uso de CPU y memoria
En la mayoría de los estimadores en scikit-learn, hay un n_jobsparámetro en fit/ predictmétodos para crear trabajos paralelos utilizando joblib. Noté que configurarlo -1crea solo 1 proceso de Python y maximiza los núcleos, lo que hace que el uso de la CPU alcance el 2500% en la parte superior. Esto …


Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.