Ciencia de los datos

2

Consecuencia del escalado de características

Actualmente estoy usando SVM y escalando mis características de entrenamiento al rango de [0,1]. Primero ajusto / transformo mi conjunto de entrenamiento y luego aplico la misma transformación a mi conjunto de prueba. Por ejemplo: ### Configure transformation and apply to training set min_max_scaler = MinMaxScaler(feature_range=(0, 1)) X_train = min_max_scaler.fit_transform(X_train) …

11 machine-learning svm feature-scaling

3

¿Qué regresión usar para calcular el resultado de la elección en un sistema multipartidista?

Quiero hacer una predicción del resultado de las elecciones parlamentarias. Mi salida será el% que recibe cada parte. Hay más de 2 partes, por lo que la regresión logística no es una opción viable. Podría hacer una regresión separada para cada parte, pero en ese caso los resultados serían de …

11 classification r python regression predictive-modeling

4

Uso de la agrupación en el procesamiento de texto

Hola, esta es mi primera pregunta en la pila de Data Science. Quiero crear un algoritmo para la clasificación de texto. Supongamos que tengo un gran conjunto de textos y artículos. Digamos alrededor de 5000 textos simples. Primero uso una función simple para determinar la frecuencia de las palabras de …

11 text-mining clustering

3

Relación entre KS, AUROC y Gini

Las estadísticas comunes de validación de modelos como la prueba de Kolmogorov-Smirnov (KS), AUROC y el coeficiente de Gini están relacionadas funcionalmente. Sin embargo, mi pregunta tiene que ver con probar cómo están todos relacionados. Tengo curiosidad por saber si alguien puede ayudarme a probar estas relaciones. No he podido …

11 data-mining statistics predictive-modeling accuracy

2

Contabilidad de experimentos y resultados

Soy un investigador práctico y me gusta probar soluciones viables, por lo que tiendo a hacer muchos experimentos. Por ejemplo, si estoy calculando un puntaje de similitud entre documentos, me gustaría probar muchas medidas. De hecho, para cada medida podría necesitar hacer varias corridas para probar el efecto de algunos …

11 tools experiments

3

Aprendizaje de funciones no supervisadas para NER

He implementado el sistema NER con el uso del algoritmo CRF con mis características artesanales que dieron resultados bastante buenos. El caso es que utilicé muchas características diferentes, incluidas etiquetas POS y lemas. Ahora quiero hacer el mismo NER para un idioma diferente. El problema aquí es que no puedo …

11 nlp text-mining feature-extraction

1

Implementación de t-SNE Python: divergencia Kullback-Leibler

t-SNE, como en [1], funciona reduciendo progresivamente la divergencia Kullback-Leibler (KL), hasta que se cumpla una determinada condición. Los creadores de t-SNE sugieren utilizar la divergencia KL como criterio de rendimiento para las visualizaciones: puede comparar las divergencias de Kullback-Leibler que informa t-SNE. Está perfectamente bien ejecutar t-SNE diez veces …

11 machine-learning python

4

Trabajando con clústeres HPC

En mi universidad, tenemos un clúster de computación HPC. Yo uso el clúster para entrenar clasificadores, etc. Entonces, por lo general, para enviar un trabajo al clúster (por ejemplo, script de python scikit-learn), necesito escribir un script de Bash que contenga (entre otros) un comando como qsub script.py. Sin embargo, …

11 bigdata data-mining

3

Visualización de datos para análisis de patrones (independiente del lenguaje, pero se prefiere R)

Quiero trazar los bytes de una imagen de disco para comprender un patrón en ellos. Esto es principalmente una tarea académica, ya que estoy casi seguro de que este patrón fue creado por un programa de prueba de disco, pero me gustaría realizar ingeniería inversa de todos modos. Ya sé …

11 r visualization

3

Conjunto de datos orientado a la ciencia de datos / pregunta de investigación para la tesis de maestría en estadística

Me gustaría explorar la 'ciencia de datos'. El término me parece un poco vago, pero espero que requiera: aprendizaje automático (en lugar de estadísticas tradicionales); un conjunto de datos lo suficientemente grande como para ejecutar análisis en clústeres. ¿Cuáles son algunos buenos conjuntos de datos y problemas, accesibles para un …

11 statistics education knowledge-base definitions

4

¿Dónde puedo descargar los datos históricos de capitalización de mercado y rotación diaria de acciones?

Hay muchas fuentes que proporcionan los datos de stock históricos, pero solo proporcionan los campos OHLC junto con el volumen y el cierre ajustado. También encontré un par de fuentes que proporcionan conjuntos de datos de capitalización de mercado, pero están restringidos a las acciones estadounidenses. Yahoo Finance proporciona esta …

11 dataset

3

¿Cómo procesar consultas de lenguaje natural?

Tengo curiosidad por las consultas en lenguaje natural. Stanford tiene lo que parece ser un sólido conjunto de software para procesar lenguaje natural . También he visto la biblioteca Apache OpenNLP y la Arquitectura general para la ingeniería de texto . Hay una increíble cantidad de usos para el procesamiento …

11 nlp

4

¿La regresión logística es realmente un algoritmo de regresión?

La definición habitual de regresión (que yo sepa) es predecir una variable de salida continua a partir de un conjunto dado de variables de entrada . La regresión logística es un algoritmo de clasificación binaria, por lo que produce una salida categórica. ¿Es realmente un algoritmo de regresión? Si es …

11 algorithms logistic-regression

1

parámetro scikit-learn n_jobs sobre uso de CPU y memoria

En la mayoría de los estimadores en scikit-learn, hay un n_jobsparámetro en fit/ predictmétodos para crear trabajos paralelos utilizando joblib. Noté que configurarlo -1crea solo 1 proceso de Python y maximiza los núcleos, lo que hace que el uso de la CPU alcance el 2500% en la parte superior. Esto …

11 python scikit-learn

5

Cuándo eliminar variables correlacionadas

¿Alguien puede sugerir cuál es la etapa correcta para eliminar las variables correlacionadas antes de la ingeniería de características o después de la ingeniería de características?

11 machine-learning feature-selection data-science-model