¿Cómo autoaprender la ciencia de datos? [cerrado]


16

Soy un desarrollador web autodidacta y estoy interesado en enseñarme ciencia de datos, pero no estoy seguro de cómo comenzar. En particular, me pregunto:

  1. ¿Qué campos hay dentro de la ciencia de datos? (por ejemplo, inteligencia artificial, aprendizaje automático, análisis de datos, etc.)
  2. ¿Hay clases en línea que la gente pueda recomendar?
  3. ¿Hay proyectos disponibles que pueda practicar (por ejemplo, conjuntos de datos abiertos)?
  4. ¿Existen certificaciones que puedo solicitar o completar?

Respuestas:


15

¡Bienvenido al sitio, Martin! Esa es una pregunta bastante amplia, por lo que probablemente obtendrá una variedad de respuestas. Aquí está mi opinión.

  1. Ciencia de los datos es un campo interdisciplinario generalmente pensado para combinar estadísticas clásicas, aprendizaje automático y ciencias de la computación (nuevamente, esto depende de a quién le pregunte, pero otro podría incluir inteligencia de negocios aquí, y también posible visualización de información o descubrimiento de conocimiento; por ejemplo, el artículo de wikipedia sobre ciencia de datos ). Un buen científico de datos también es experto en captar las características específicas del dominio del dominio en el que trabaja, también. Por ejemplo, un científico de datos que trabaja en análisis para registros de hospitales es mucho más efectivo si tiene experiencia en Informática Biomédica.
  2. Aquí hay muchas opciones, dependiendo del tipo de análisis que le interese. El curso de Andrew Ng es el primer recurso mencionado por la mayoría , y con razón. Si está interesado en el aprendizaje automático, es un excelente punto de partida. Si desea una exploración en profundidad de las matemáticas involucradas, Los elementos del aprendizaje estadístico de Tibshirani son excelentes, pero un texto bastante avanzado. Hay muchos cursos en línea disponibles en Coursera además de Ng's, pero debe seleccionarlos teniendo en cuenta el tipo de análisis en el que desea centrarse y / o el dominio en el que planea trabajar.
  3. Kaggle . Comience con kaggle, si desea sumergirse en algunos problemas de análisis del mundo real. Sin embargo, dependiendo de su nivel de experiencia, puede ser bueno comenzar de manera más simple.El Proyecto Euler es un gran recurso para problemas de práctica únicos que todavía uso como trabajo de preparación.
  4. De nuevo, esto probablemente depende del dominio en el que desea trabajar. Sin embargo, sé que Coursera ofrece un certificado de ciencia de datos, si completa una serie de cursos relacionados con la ciencia de datos. Este es probablemente un buen lugar para comenzar.

¡Buena suerte! Si tiene alguna otra pregunta específica, no dude en preguntarme en los comentarios, ¡y haré todo lo posible para ayudarlo!


1
Volviendo a esto, el curso de Andrew Ng es difícil . Debería haber mencionado que no soy fuerte en matemáticas. He oído que este otro curso de Data Science es un poco más fácil para aprender las cuerdas. ¿Qué piensas?
Martin

5

Soy un científico de datos autodidacta, y haré todo lo posible para explicarle cómo hacerlo.


¿Qué campos hay dentro de la ciencia de datos? (por ejemplo, inteligencia artificial, aprendizaje automático, análisis de datos, etc.)

Data Science es un dominio muy amplio. Se trata de la ciencia de los datos. Por lo tanto, cualquier campo que use datos para tomar decisiones se incluye en este dominio. Algunos de los campos incluyen:

  • AI
  • Reconocimiento de patrones y análisis
  • Bioestadística
  • Aprendizaje estadístico
  • Aprendizaje automático
  • Estética de datos (o visualización de datos)
  • Periodismo de datos

¿Hay clases en línea que la gente pueda recomendar?

He respondido a pregunta similar . Entonces lo citaría aquí:

Comience con el curso de aprendizaje automático de Coursera . Hace un muy buen trabajo al presentar al alumno el dominio del aprendizaje automático y le ayuda a establecer una base sólida en los conceptos.

En caso de que sientas que las matemáticas están un poco tontas en ese curso, puedes tomar este curso , impartido por el mismo profesor y es intensivo en matemáticas que el anterior.

Ahora, tendría una intuición clara sobre los conceptos básicos del aprendizaje automático. Ahora toma este curso , que se puede decir como un seguimiento o un complemento del curso de Andrew Ng.

Este recurso de IAPR tiene notas detalladas sobre muchos conceptos de LD como validación cruzada, regularización, etc.

También puedes echar un vistazo a esta increíble lista de recursos compilados en un blog en Quora.

Ahora, para sumergirse en conceptos avanzados de redes neuronales y aprendizaje profundo, puede hacer uso de este libro gratuito .

Finalmente, el libro electrónico gratuito: Elementos de aprendizaje estadístico es un libro maravilloso para principiantes en aprendizaje automático o aprendizaje estadístico.

Además de eso, consulte este repositorio de referencias de ciencia de datos de Quora .


¿Hay proyectos disponibles que pueda practicar (por ejemplo, conjuntos de datos abiertos)?

He comenzado a hacer proyectos con conjuntos de datos abiertos de la India. Sin embargo, le recomendaría que revise esta increíble discusión aquí , y después de hacer esos proyectos, puede comenzar con Kaggle.


¿Existen certificaciones que puedo solicitar o completar?

En mi opinión, no hay certificaciones de ciencia de datos . Sí, hay muchas certificaciones de Big Data, pero no las veo realmente útiles para un científico de datos en ciernes, por lo que te recomiendo que no las persigas al menos hasta que estés lo suficientemente seguro con tus habilidades de ML y datos.


1

Recomiendo comenzar con las especializaciones de Coursera en ciencia de datos. La especialización en ciencia de datos de Johns Hopkins es la especialización más antigua. No recomiendo libros y kaggle. Solo te confunden al principio. Tenga en cuenta que la codificación es la parte más fácil de la ciencia de datos y debe aprender mucho. Para tener una idea sobre el campo, este diagrama de Venn es un buen comienzo.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.