Después de graduarme recientemente de mi programa de doctorado en estadística, durante los últimos meses comencé a buscar trabajo en el campo de la estadística. Casi todas las compañías que consideraba tenían un puesto de trabajo con un título de " Data Scientist ". De hecho, parecía que habían quedado atrás los días de ver títulos de trabajo de Estadístico Científico o Estadístico . ¿Ser un científico de datos realmente había reemplazado lo que era ser estadístico o los títulos eran sinónimos?
Bueno, la mayoría de las calificaciones para los trabajos se sentían como cosas que calificarían bajo el título de estadístico. La mayoría de los trabajos querían un doctorado en estadística ( ), la mayoría requería comprensión del diseño experimental ( ), regresión lineal y anova ( ), modelos lineales generalizados ( ) y otros métodos multivariados como PCA ( ) , así como el conocimiento en un entorno informático estadístico como R o SAS ( ). Parece que un científico de datos es realmente solo un nombre en clave para el estadístico.✓ ✓ ✓ ✓ ✓
Sin embargo, cada entrevista a la que fui comenzó con la pregunta: "Entonces, ¿estás familiarizado con los algoritmos de aprendizaje automático?" La mayoría de las veces, tuve que intentar responder preguntas sobre big data, computación de alto rendimiento y temas sobre redes neuronales, CART, máquinas de vectores de soporte, árboles de impulso, modelos no supervisados, etc. Seguro, me convencí de que todo esto era preguntas estadísticas en el fondo, pero al final de cada entrevista no pude evitar dejar la sensación de que sabía cada vez menos sobre qué es un científico de datos.
Soy estadístico, pero ¿soy científico de datos? ¡Trabajo en problemas científicos, así que debo ser científico! ¡Y también trabajo con datos, así que debo ser un científico de datos! Y de acuerdo con Wikipedia, la mayoría de los académicos estarían de acuerdo conmigo ( https://en.wikipedia.org/wiki/Data_science , etc.)
Aunque el uso del término "ciencia de datos" ha explotado en entornos empresariales, muchos académicos y periodistas no ven distinción entre ciencia de datos y estadísticas.
Pero si voy a todas estas entrevistas de trabajo para un puesto de científico de datos, ¿por qué siento que nunca me hacen preguntas estadísticas?
Bueno, después de mi última entrevista, quería que cualquier buen científico lo hiciera y busqué datos para resolver este problema (hey, después de todo, soy un científico de datos). Sin embargo, después de muchas búsquedas en Google más tarde, terminé justo donde comencé a sentir que una vez más estaba lidiando con la definición de lo que era un científico de datos. No sabía exactamente qué era un científico de datos, ya que había tantas definiciones de ello ( http://blog.udacity.com/2014/11/data-science-job-skills.html , http: // www -01.ibm.com/software/data/infosphere/data-scientist/ ) pero parecía que todo el mundo me decía que quería ser uno:
- https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/
- http://mashable.com/2014/12/25/data-scientist/#jjgsyhcERZqL
- etc .... la lista continúa.
Bueno, al final del día, lo que descubrí fue "qué es un científico de datos" es una pregunta muy difícil de responder. Diablos, hubo dos meses enteros en Amstat donde dedicaron tiempo a tratar de responder esta pregunta:
- http://magazine.amstat.org/blog/2015/10/01/asa-statement-on-the-role-of-statistics-in-data-science/
- http://magazine.amstat.org/blog/2015/11/01/statnews2015/
Bueno, por ahora, tengo que ser un estadístico sexy para ser un científico de datos, pero espero que la comunidad con validación cruzada pueda arrojar algo de luz y ayudarme a comprender lo que significa ser un científico de datos. ¿No son todos los estadísticos científicos de datos?
(Editar / Actualizar)
Pensé que esto podría darle vida a la conversación. Acabo de recibir un correo electrónico de la Asociación Americana de Estadística acerca de un puesto de trabajo con Microsoft en busca de un científico de datos. Aquí está el enlace: Posición del científico de datos . Creo que esto es interesante porque el papel de la posición afecta a muchos rasgos específicos de los que hemos estado hablando, pero creo que muchos de ellos requieren un fondo muy riguroso en estadísticas, además de contradecir muchas de las respuestas publicadas a continuación. En caso de que el enlace falle, estas son las cualidades que Microsoft busca en un científico de datos:
Requisitos y habilidades laborales principales:
Experiencia de dominio empresarial usando Analytics
- Debe tener experiencia en varios dominios comerciales relevantes en la utilización de habilidades de pensamiento crítico para conceptualizar problemas comerciales complejos y sus soluciones utilizando análisis avanzados en conjuntos de datos comerciales del mundo real a gran escala.
- El candidato debe ser capaz de ejecutar proyectos analíticos de forma independiente y ayudar a nuestros clientes internos a comprender los resultados y traducirlos en acción para beneficiar a su negocio.
Modelado predictivo
- Experiencia en todas las industrias en modelado predictivo
- Definición de problemas de negocio y modelado conceptual con el cliente para generar relaciones importantes y definir el alcance del sistema
Estadística / Econometría
- Análisis de datos exploratorios para datos continuos y categóricos.
- Especificación y estimación de ecuaciones del modelo estructural para el comportamiento de la empresa y el consumidor, el costo de producción, la demanda de factores, la elección discreta y otras relaciones tecnológicas, según sea necesario.
- Técnicas estadísticas avanzadas para analizar datos continuos y categóricos.
- Análisis de series temporales e implementación de modelos de pronóstico.
- Conocimiento y experiencia en el trabajo con problemas de múltiples variables.
- Capacidad para evaluar la corrección del modelo y realizar pruebas de diagnóstico.
- Capacidad para interpretar estadísticas o modelos económicos.
- Conocimiento y experiencia en la construcción de simulación de eventos discretos y modelos de simulación dinámica.
Gestión de datos
- Familiaridad con el uso de T-SQL y análisis para la transformación de datos y la aplicación de técnicas exploratorias de análisis de datos para conjuntos de datos muy grandes del mundo real
- Atención a la integridad de los datos, incluida la redundancia de datos, la precisión de los datos, los valores anormales o extremos, las interacciones de los datos y los valores faltantes.
Habilidades de comunicación y colaboración
- Trabaje de manera independiente y pueda trabajar con un equipo de proyecto virtual que investigará soluciones innovadoras para problemas comerciales desafiantes
- Colaborar con socios, aplicar habilidades de pensamiento crítico e impulsar proyectos analíticos de extremo a extremo
- Habilidades de comunicación superiores, tanto verbales como escritas.
- Visualización de resultados analíticos en una forma que sea consumible por un conjunto diverso de partes interesadas.
Paquetes de programas
- Paquetes de software estadísticos / econométricos avanzados: Python, R, JMP, SAS, Eviews, SAS Enterprise Miner
- Exploración, visualización y gestión de datos: T-SQL, Excel, PowerBI y herramientas equivalentes.
Calificaciones:
- Se requiere un mínimo de 5 años de experiencia relacionada
- Postgrado en campo cuantitativo es deseable.