Estadísticas + Informática = Ciencia de datos? [cerrado]


10

Quiero convertirme en un científico de datos . Estudié estadística aplicada (ciencia actuarial), así que tengo una gran base estadística (regresión, proceso estocástico, series de tiempo, solo por mencionar algunos). Pero ahora, voy a hacer una maestría en informática enfocada en Sistemas Inteligentes.

Aquí está mi plan de estudio:

  • Aprendizaje automático
  • Aprendizaje automático avanzado
  • Procesamiento de datos
  • Lógica difusa
  • Sistemas de recomendación
  • Sistemas de datos distribuidos
  • Computación en la nube
  • Descubrimiento del conocimiento
  • Inteligencia de Negocio
  • Recuperación de información
  • Extracción de textos

Al final, con todo mi conocimiento en estadística e informática, ¿puedo llamarme científico de datos? o estoy equivocado?

Gracias por las respuestas



Esta pregunta parece estar fuera de tema porque se trata de consejos profesionales. Se ha demostrado que el asesoramiento profesional genera preguntas amplias orientadas a la opinión o, a veces, preguntas extremadamente restringidas, la mayoría de las cuales no resultan en un discurso útil. Si no está de acuerdo con esta opinión, plantee el problema en Data Science Meta .
asheeshr

En pocas palabras, no. Datos + Método científico = Ciencia de datos :-). Todo lo demás es solo una metodología para llegar allí
I_Play_With_Data

Respuestas:


1

Creo que estás en el camino correcto para convertirte en un experto científico de datos . Recientemente he respondido una pregunta relacionada aquí en Data Science StackExchange: /datascience//a/742/2452 (preste atención a la definición que menciono allí, ya que esencialmente responde a su pregunta por sí mismo, así como a aspectos de practicar ingeniería de software y aplicar conocimiento para resolver problemas del mundo real ). Espero que encuentres todo eso útil. ¡Buena suerte en tu carrera!


9

Bueno, depende de qué tipo de "Ciencia de datos" desee ingresar. Para el análisis básico y las estadísticas de informes ciertamente será útil, pero para Machine Learning e Inteligencia Artificial, entonces querrá algunas habilidades más

  • Teoría de la probabilidad : debe tener una base sólida en probabilidad pura para poder descomponer cualquier problema, ya sea visto anteriormente o no, en principios probabilísticos. Las estadísticas ayudan mucho a los problemas ya resueltos, pero los problemas nuevos y no resueltos requieren una comprensión profunda de la probabilidad para que pueda diseñar técnicas apropiadas.

  • Teoría de la información : este (en relación con las estadísticas) es un campo bastante nuevo (aunque todavía tiene décadas de antigüedad), el trabajo más importante fue de Shannon, pero una nota aún más importante y a menudo descuidada en la literatura es el trabajo de Hobson que demostró que la divergencia de Kullback-Leibler es la única definición matemática que realmente captura la noción de una "medida de información" . Ahora es fundamental para la inteligencia artificial poder cuantificar la información. Sugiera leer "Conceptos en Mecánica Estadística" - Arthur Hobson (libro muy caro, solo disponible en bibliotecas académicas).

  • Teoría de la complejidad- Un gran problema que enfrentan muchos científicos de datos que no tienen una sólida base de teoría de complejidad es que sus algoritmos no se escalan, o simplemente tardan mucho tiempo en ejecutarse en datos grandes. Tomemos PCA, por ejemplo, la respuesta favorita de muchas personas a la pregunta de la entrevista "¿cómo se reduce el número de características en nuestro conjunto de datos", pero incluso si le dice al candidato "el conjunto de datos es realmente muy grande", todavía proponen varias formas de PCA que son O (n ^ 3). Si desea destacarse, quiere poder resolver cada problema por sí mismo, NO arrojar alguna solución de libro de texto diseñada hace mucho tiempo antes de que Big Data fuera algo tan moderno. Para eso, debe comprender cuánto tiempo tardan las cosas en ejecutarse, no solo teóricamente, sino prácticamente, así que cómo usar un grupo de computadoras para distribuir un algoritmo,

  • Habilidades de comunicación : una gran parte de Data Science es comprender los negocios. Ya sea que esté inventando un producto impulsado por la ciencia de datos o dando una visión comercial impulsada por la ciencia de datos, es muy importante poder comunicarse bien tanto con los Gerentes de proyecto y producto, los equipos tecnológicos y sus colegas científicos de datos. Puede tener una idea increíble, decir una solución de inteligencia artificial increíble, pero si no puede (a) comunicar efectivamente POR QUÉ eso le hará ganar dinero al negocio, (b) convencer a sus colegas de que funcionará y (c) explicar a la gente de tecnología cómo necesita su ayuda para construirlo, entonces no se hará.


6

Científico de datos (para mí) un gran término general. Vería a un científico de datos como una persona que puede usar técnicas de los campos de minería de datos, aprendizaje automático, clasificación de patrones y estadísticas.

Sin embargo, esos términos están entrelazados con: el aprendizaje automático está vinculado con la clasificación de patrones, y también la minería de datos se superpone cuando se trata de encontrar patrones en los datos. Y todas las técnicas tienen sus principios estadísticos subyacentes. Siempre imagino esto como un diagrama de Venn con una gran intersección.

Las ciencias de la computación también están relacionadas con todos esos campos. Yo diría que necesita técnicas de "ciencia de datos" para hacer investigación científica en computación, pero el conocimiento en informática no necesariamente está implicado en "ciencia de datos". Sin embargo, las habilidades de programación (veo la programación y la informática como profesiones diferentes, donde la programación es más la herramienta para resolver problemas) también son importantes para trabajar con los datos y realizar análisis de datos.

Tienes un plan de estudio realmente agradable, y todo tiene sentido. Pero no estoy seguro de si "quiere" llamarse simplemente "científico de datos", tengo la impresión de que "científico de datos" es un término tan ambiguo que puede significar todo o nada. Lo que quiero transmitir es que terminarás siendo algo más, más "especializado", que "solo" un científico de datos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.