¿Libros sobre la "ciencia" en ciencia de datos? [cerrado]


26

¿Cuáles son los libros sobre la ciencia y las matemáticas detrás de la ciencia de datos? Parece que muchos libros de "ciencia de datos" son tutoriales de programación y no tocan cosas como procesos de generación de datos e inferencia estadística. Ya puedo codificar, en lo que soy débil es en matemáticas / estadísticas / teoría detrás de lo que estoy haciendo.

Si estoy listo para quemar $ 1000 en libros (unos 10 libros ... suspiro), ¿qué puedo comprar?

Ejemplos: análisis de datos categóricos de Agresti , modelos lineales mixtos para datos longitudinales , etc., etc.


Preguntar sobre libros "buenos" atraerá respuestas basadas en opiniones, por lo que esto está fuera de tema. Marcado
Spacedman

3
Lo he cambiado, así que solo estoy buscando libros. Nada basado en opiniones.
Anton

Se deletrea Estadísticas :) Quédese con algo pragmático que se centre en la predicción más que en la inferencia. Ambos elementos del aprendizaje estadístico y una introducción al aprendizaje estadístico están en las listas de la mayoría de las personas.
Dirk Eddelbuettel

Todavía no puedo agregar un comentario, pero solo FYI ESL está disponible de forma gratuita en línea en
formato

1
Creo que esta pregunta debería marcarse como wiki de la comunidad.
Shagun Sodhani

Respuestas:


21

13

Si solo pudiera recomendarte uno, sería: Los elementos del aprendizaje y la predicción estadística de Hastie, Tibshirani y Friedman. Proporciona las matemáticas / estadísticas detrás de muchas técnicas comúnmente utilizadas en ciencia de datos.

Para las técnicas bayesianas, el análisis de datos bayesianos de Gelman, Carlin, Stern, Dunson, Vehtari y Rubin es excelente.

Inferencia estadística de Casella y Berger es un buen libro de texto de posgrado sobre los fundamentos teóricos de la estadística. Este libro requiere un nivel bastante alto de comodidad con las matemáticas (la teoría de la probabilidad se basa en la teoría de la medida, que no es trivial de entender).

Con respecto a los procesos de generación de datos, no tengo una recomendación para un libro. Lo que puedo decir es que una buena comprensión de los supuestos de las técnicas utilizadas y garantizar que los datos se recopilaron o generaron de una manera que no viola esos supuestos contribuye en gran medida a un buen análisis.


7

Otras respuestas recomendaron un buen conjunto de libros sobre las matemáticas detrás de la ciencia de datos. Pero como mencionó, no solo las matemáticas y actividades como la recopilación de datos y la inferencia de datos tienen sus propias reglas y teorías, incluso si no son tan rigurosas como los antecedentes matemáticos (todavía).

Para estas partes, sugiero el libro Beautiful Data: The Stories Behind Elegant Data Solutions que contiene veinte capítulos similares a casos de estudio escritos por personas realmente comprometidas con problemas de análisis de datos del mundo real. No contiene ninguna matemática, pero explora áreas como la recopilación de datos, encontrando formas prácticas de usar los datos en análisis, escalando y seleccionando muy bien las mejores soluciones.

Otro libro realmente interesante es Pensar con datos: cómo convertir la información en ideas , que tampoco es técnico (= tutorial de programación), pero cubre temas importantes sobre cómo usar realmente el poder de la ciencia de datos en la toma de decisiones y problemas del mundo real.


7

Me gustan las sugerencias de Amir Ali Akbari, y agregaré algunas propias, centrándome en temas y habilidades que no están cubiertos adecuadamente en la mayoría de los libros de aprendizaje automático y análisis de datos que se centran en matemáticas y / o programación.

Limpieza de datos:

Análisis de datos bayesianos (alternativa a las pruebas de significación de hipótesis nulas estilo Fisher):

Inferencia ante la incertidumbre, la incompletitud, las contradicciones, la ambigüedad, la imprecisión, la ignorancia, etc.

Experimentos:

Simulación:

Elicitación experta, estimación probabilística:

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.