Ciencia de los datos

Preguntas y respuestas para profesionales de la ciencia de datos, especialistas en aprendizaje automático y aquellos interesados ​​en aprender más sobre el campo



4
R: aprendizaje automático en GPU
¿Hay algún paquete de aprendizaje automático para R que pueda hacer uso de la GPU para mejorar la velocidad de entrenamiento (algo así como theano del mundo python)? Veo que hay un paquete llamado gputools que permite la ejecución de código en la gpu, pero estoy buscando una biblioteca más …


4
Herramientas de ciencia de datos con Scala
Sé que Spark está completamente integrado con Scala. Su caso de uso es específicamente para grandes conjuntos de datos. ¿Qué otras herramientas tienen buen soporte de Scala? ¿Es Scala el más adecuado para conjuntos de datos más grandes? ¿O también es adecuado para conjuntos de datos más pequeños?

4
¿Cómo especificar atributos importantes?
Suponga un conjunto de datos poco estructurados (por ejemplo, tablas web / datos abiertos vinculados), compuestos de muchas fuentes de datos. No existe un esquema común seguido de los datos y cada fuente puede usar atributos de sinónimos para describir los valores (por ejemplo, "nacionalidad" frente a "bornIn"). Mi objetivo …




4
Similitud entre dos palabras.
Estoy buscando una biblioteca de Python que me ayude a identificar la similitud entre dos palabras u oraciones. Haré la conversión de audio a texto, lo que dará como resultado un diccionario de inglés o palabras que no estén en el diccionario (podría ser el nombre de una persona o …
15 nlp  nltk 

1
eliminar cadenas después de cierto carácter en un texto dado
Tengo un conjunto de datos como el siguiente. Quiero eliminar todos los caracteres después del carácter ©. ¿Cómo puedo hacer eso en R? data_clean_phrase <- c("Copyright © The Society of Geomagnetism and Earth", "© 2013 Chinese National Committee ") data_clean_df <- as.data.frame(data_clean_phrase)
15 r  data-cleaning 




2
K-means versus K-means en línea
K-means es un algoritmo bien conocido para el agrupamiento, pero también existe una variación en línea de dicho algoritmo (K-means en línea). ¿Cuáles son los pros y los contras de estos enfoques y cuándo se deben preferir?

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.