Permítanme aclarar primero que estoy comenzando mi viaje hacia la ciencia de datos desde un punto de vista de programador y desarrollador de bases de datos. No soy un experto en ciencias de datos de 10 años ni un dios de la estadística. Sin embargo, sí trabajo como científico de datos y grandes conjuntos de datos para una empresa que trabaja con clientes bastante grandes en todo el mundo.
Desde mi experiencia, el científico de datos utiliza cualquier herramienta que necesite para hacer el trabajo.Excel, R, SAS, Python y más son todas herramientas en una caja de herramientas para un buen científico de datos. Los mejores pueden usar una amplia variedad de herramientas para analizar y procesar datos.
Por lo tanto, si te encuentras comparando R con Python, es probable que lo estés haciendo todo mal en el mundo de la ciencia de datos.Un buen científico de datos usa ambos cuando tiene sentido usar uno sobre el otro. Esto también se aplica a Excel.
Creo que es bastante difícil encontrar a alguien que tenga experiencia en tantas herramientas e idiomas diferentes, a la vez que ha sido excelente en todo. También creo que será difícil encontrar científicos de datos específicamente que no solo puedan programar algoritmos complejos sino que también sepan cómo usarlos desde un punto de vista estadístico.
La mayoría de los científicos de datos con los que he trabajado vienen en aproximadamente 2 sabores. Los que pueden programar y los que no pueden. Raramente trabajo con un científico de datos que pueda extraer datos en Python, manipularlos con algo como Pandas, ajustar un modelo a los datos en R y luego presentarlos a la gerencia al final de la semana.
Quiero decir, sé que existen. He leído muchos blogs de ciencia de datos de personas que desarrollan scrappers web, lo introducen en Hadoop, lo extraen en Python, programan cosas complejas y lo ejecutan a través de R para arrancar. Ellos existen. Están afuera Simplemente no me he encontrado con muchos que puedan hacer todo eso. ¿Quizás es solo mi área?
Entonces, ¿eso significa solo especializarse en una cosa mala? No. Muchos de mis amigos se especializan en un solo idioma principal y lo matan. Conozco muchos tipos de datos que solo conocen R y lo matan. También conozco a muchas personas que solo usan Excel para analizar datos porque eso es lo único que la mayoría de los científicos que no son de datos pueden abrir y usar (especialmente en empresas B2B). La pregunta que realmente necesita responder es si esta es la ÚNICA cosa que necesita para este puesto. Y lo más importante, ¿pueden aprender cosas nuevas?
PD
Data Science no se limita solo a "BIG DATA" o NoSQL.