¿Proyectos de ciencia de datos explicados paso a paso?

10

Estoy buscando un sitio web o libro donde se dan varios ejemplos prácticos paso a paso, explicando cómo eligen las características relevantes, el procedimiento de selección del modelo, etc.

machine-learning feature-selection

— cpumar
fuente

2

Si desea un libro orientado a la aplicación, considere el aprendizaje automático basado en modelos de Christopher Bishop . Tiene más libros técnicos que están bien considerados.
Si está buscando un montón de código, la programación probabilística y los métodos bayesianos para piratas informáticos son una opción.
Otro libro de introducción, con una inclinación más estadística es una introducción al aprendizaje estadístico con aplicaciones en R . Una vez más, los autores tienen una versión técnica del libro bien considerada.

— Emre
fuente

1

Tuve la misma pregunta hace unas semanas.

Personalmente, encontré que Python para el análisis de datos de O'Reilly es muy útil para aprender lo básico. El libro asume que tienes algo de experiencia en programación de Python, pero también tiene un apéndice en la parte posterior para ver los conceptos básicos.

El autor le brinda una amplia variedad de ejemplos del mundo real (no Monty Python) al principio que puede crear dentro de los primeros capítulos, luego detalla cada cosa a medida que avanza el libro, construyendo su conocimiento.

Encontré las instrucciones muy fáciles y paso a paso. Mi profesor, que es mi guía en todo esto, quedó impresionado de lo rápido que aprendí.

También he escuchado cosas buenas sobre Kaggle.

— Brian B.
fuente

1

Data Science in the Cloud con Microsoft Azure Machine Learning y R es un libro de texto gratuito que funciona a través de un ejemplo con gran detalle. No se desanime por las herramientas particulares utilizadas, ya que no las necesita para obtener algún beneficio del libro.

Otro de los que disfruté es Programming Collective Intelligence, que también pasa por una serie de proyectos en detalle, incluida la parte de raspado web que la mayoría de los libros pasan por alto.

— Flounderer
fuente

1

Puedo recomendar esta colección de cuadernos Ipython que incluye cuadernos comentados de ciencia de datos, estadísticas y aprendizaje automático.

https://github.com/ipython/ipython/wiki/A-gallery-of-interesting-IPython-Notebooks

— Thomas Pazur
fuente

1

Un lugar en el que puede encontrar algunas explicaciones paso a paso interesantes es el tutorial de Kaggle y las entrevistas a los ganadores . A menudo las personas publicarán un resumen detallado de su enfoque.

— anthr
fuente

Tu enlace está roto.

— Pierre

@Pierre - solo lo arreglé.

— anthr

0

Uno de los mejores libros que he encontrado es Machine Learning in Python de Sebastian Raschka. Ejemplos sencillos, explicación paso a paso y la cantidad justa de matemáticas.

La estructura del libro cubre todo el proceso, desde la limpieza de datos hasta el ensamblaje y la evaluación.

— HonzaB
fuente

0

Mira esto :

https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-learn-data-science-python-scratch-2/

Esto tiene un tutorial paso a paso que le dará una idea del proceso completo de exploración de datos, análisis de datos y construcción de un modelo predictivo.

La explicación sobre la exploración de datos y la ingeniería de características (cómo elegir las características relevantes) está aquí:

https://www.analyticsvidhya.com/blog/2016/01/guide-data-exploration/

Vea los primeros 5 conjuntos de datos aquí que tienen tutoriales y trabaje en ellos para obtener experiencia práctica:

https://www.analyticsvidhya.com/blog/2016/10/17-ultimate-data-science-projects-to-boost-your-knowledge-and-skills/

También eche un vistazo a:

http://machinelearningmastery.com/machine-learning-in-python-step-by-step/

donde usa múltiples modelos en un solo conjunto de datos que le dará un nivel básico de comprensión de diferentes modelos.

Para comprender más sobre la selección del modelo, eche un vistazo a esto:

https://www.quora.com/Data-Science-How-do-Data-Scientists-perform-model-selection

El enlace de arriba tiene respuestas dadas por personas que trabajan en el campo.

Para obtener información sobre diferentes conjuntos de datos, siempre puede iniciar sesión en kaggle y participar en concursos y echar un vistazo a la amplia gama de conjuntos de datos, donde tiene acceso al código de las personas en los núcleos. Los foros en Kaggle son útiles cuando las personas discuten sobre el uso de diferentes modelos para un problema y su enfoque.

https://www.kaggle.com/

— RRRK
fuente