Soy un R
programador de idiomas. También estoy en el grupo de personas que se consideran científicos de datos pero que provienen de disciplinas académicas distintas de la CS.
Sin embargo, esto funciona bien en mi papel como Científico de Datos, al comenzar mi carrera R
y tener solo conocimientos básicos de otros lenguajes de secuencias de comandos / web, me he sentido algo inadecuado en 2 áreas clave:
- Falta de un conocimiento sólido de la teoría de la programación.
- Falta de un nivel competitivo de habilidad en lenguajes más rápidos y de mayor uso como
C
,C++
yJava
, que podría utilizarse para aumentar la velocidad de la tubería y los cálculos de Big Data, así como para crear productos de DS / datos que pueden desarrollarse más rápidamente scripts de back-end o aplicaciones independientes.
La solución es simple, por supuesto: vaya a aprender sobre programación, que es lo que he estado haciendo al inscribirme en algunas clases (actualmente programación en C).
Sin embargo, ahora que estoy empezando a abordar los problemas # 1 y # 2 anteriores, me pregunto " ¿C
C++
Qué tan viables son los lenguajes y para Data Science? ".
Por ejemplo, puedo mover datos rápidamente e interactuar con los usuarios perfectamente, pero ¿qué pasa con la regresión avanzada, el aprendizaje automático, la minería de texto y otras operaciones estadísticas más avanzadas?
Asi que. puede C
hacer el trabajo: ¿qué herramientas están disponibles para estadísticas avanzadas, ML, AI y otras áreas de la ciencia de datos? ¿O debo perder la mayor parte de la eficiencia obtenida programando C
invocando R
scripts u otros lenguajes?
El mejor recurso que he encontrado hasta ahora en C es una biblioteca llamada tiburón , lo que da C
/ C++
la capacidad de utilizar las máquinas de vectores de soporte, la regresión lineal (no no lineal y otra de regresión probit multinomial avanzada como, etc) y una lista de otros (genial pero) funciones estadísticas.