(Muy) cuento
En pocas palabras, las estadísticas son como cualquier otro campo técnico: no hay una vía rápida .
Larga historia
Los programas de licenciatura en estadística son relativamente raros en los Estados Unidos. Una razón por la que creo que esto es cierto es que es bastante difícil incluir todo lo necesario para aprender estadísticas en un plan de estudios universitario. Esto es particularmente cierto en las universidades que tienen requisitos significativos de educación general.
El desarrollo de las habilidades necesarias (matemáticas, computacionales e intuitivas) requiere mucho esfuerzo y tiempo. Las estadísticas pueden comenzar a entenderse a un nivel "operacional" bastante decente una vez que el estudiante haya dominado el cálculo y una cantidad decente de álgebra lineal y matricial. Sin embargo, cualquier estadístico aplicado sabe que es bastante fácil encontrarse en un territorio que no se ajusta a un enfoque basado en recetas o en un cortador de galletas. Para comprender realmente lo que sucede debajo de la superficie se requiere como requisito previomatemática y, en el mundo de hoy, madurez computacional que solo son realmente alcanzables en los años posteriores de la formación universitaria. Esta es una de las razones por las que la verdadera capacitación estadística comienza principalmente en el nivel de EM en los EE. UU. (India, con su ISI dedicado es una historia un poco diferente. Un argumento similar podría hacerse para alguna educación basada en Canadá. No estoy lo suficientemente familiarizado con Educación estadística de pregrado con base en Europa o Rusia para tener una opinión informada.)
Casi cualquier trabajo (interesante) requeriría una educación a nivel de EM y los trabajos realmente interesantes (en mi opinión) esencialmente requieren una educación a nivel de doctorado.
Al ver que tiene un doctorado en matemáticas, aunque no sabemos en qué área, aquí están mis sugerencias para algo más cercano a una educación de nivel MS. Incluyo algunos comentarios entre paréntesis para explicar las opciones.
- D. Huff, Cómo mentir con las estadísticas . (Lectura muy rápida y fácil. Muestra muchas de las ideas conceptuales y dificultades, en particular, al presentar estadísticas al lego).
- Mood, Graybill y Boes, Introducción a la teoría de la estadística , 3a ed., 1974. (Introducción a nivel estadístico de la estadística teórica. Aprenderá sobre distribuciones de muestreo, estimación de puntos y pruebas de hipótesis en un marco clásico y frecuentista. Mi la opinión es que esto es generalmente mejor y un poco más avanzado que sus homólogos modernos como Casella & Berger o Rice).
- Seber & Lee, Análisis de regresión lineal , 2ª ed. (Establece la teoría detrás de la estimación puntual y las pruebas de hipótesis para modelos lineales, que es probablemente el tema más importante para entender en las estadísticas aplicadas. Dado que probablemente tenga un buen fondo de álgebra lineal, debería ser capaz de comprender lo que está sucediendo geométricamente , lo que proporciona mucha intuición. También tiene buena información relacionada con cuestiones de evaluación en la selección de modelos, desviaciones de supuestos, predicciones y versiones robustas de modelos lineales).
- Hastie, Tibshirani y Friedman, Elementos del aprendizaje estadístico , 2ª ed., 2009. (Este libro tiene un sentimiento mucho más aplicado que el anterior y abarca en general muchos temas modernos de aprendizaje automático. La mayor contribución aquí es proporcionar interpretaciones estadísticas de muchas ideas de aprendizaje automático, lo que vale especialmente para cuantificar la incertidumbre en tales modelos. Esto es algo que tiende a no ser abordado en los libros típicos de aprendizaje automático. Legalmente disponible de forma gratuita aquí .)
- A. Agresti, Análisis de datos categóricos , 2ª ed. (Buena presentación de cómo tratar datos discretos en un marco estadístico. Buena teoría y buenos ejemplos prácticos. Quizás en el aspecto tradicional en algunos aspectos).
- Boyd y Vandenberghe, Optimización convexa . (Muchos de los problemas más populares de estimación estadística moderna y pruebas de hipótesis pueden formularse como problemas de optimización convexa. Esto también se aplica a numerosas técnicas de aprendizaje automático, por ejemplo, SVM. Tener una comprensión más amplia y la capacidad de reconocer tales problemas como programas convexos es bastante valioso, creo. Legalmente disponible gratis aquí .)
- Efron y Tibshirani, una introducción a Bootstrap . (Al menos debe estar familiarizado con el bootstrap y las técnicas relacionadas. Para un libro de texto, es una lectura rápida y fácil).
- J. Liu, Monte Carlo Strategies in Scientific Computing o P. Glasserman, Monte Carlo Methods in Financial Engineering . (Esto último suena muy dirigido a un área de aplicación en particular, pero creo que proporcionará una buena visión general y ejemplos prácticos de todas las técnicas más importantes. Las aplicaciones de ingeniería financiera han impulsado una buena cantidad de investigación de Monte Carlo durante la última década más o menos .)
- E. Tufte, La visualización de información cuantitativa . (La buena visualización y presentación de datos está [altamente] subestimada, incluso por los estadísticos).
- J. Tukey, Análisis de datos exploratorios . (Estándar. Viejo, pero bueno. Algunos podrían decir anticuado, pero vale la pena echarle un vistazo.)
Complementos
Aquí hay algunos otros libros, en su mayoría de naturaleza un poco más avanzada, teórica y / o auxiliar, que son útiles.
- FA Graybill, teoría y aplicación del modelo lineal . (Anticuado, composición tipográfica terrible, pero cubre todo el mismo terreno de Seber & Lee, y más. Digo anticuado porque los tratamientos más modernos probablemente tenderían a usar el SVD para unificar y simplificar muchas de las técnicas y pruebas).
- FA Graybill, Matrices con aplicaciones en estadística . (Texto complementario al anterior. Una gran cantidad de buenos resultados de álgebra matricial útiles para las estadísticas aquí. Gran referencia de escritorio).
- Devroye, Gyorfi y Lugosi, una teoría probabilística del reconocimiento de patrones . (Texto riguroso y teórico sobre la cuantificación del rendimiento en problemas de clasificación).
- Brockwell y Davis, Series temporales: teoría y métodos . (Análisis clásico de series de tiempo. Tratamiento teórico. Para los más aplicados, los textos de Box, Jenkins & Reinsel o Ruey Tsay son decentes).
- Motwani y Raghavan, Algoritmos aleatorizados . (Métodos probabilísticos y análisis para algoritmos computacionales).
- D. Williams, Probabilidad y Martingales y / o R. Durrett, Probabilidad: teoría y ejemplos . (En caso de que haya visto la teoría de la medición, digamos, a nivel de DL Cohn, pero tal vez no la teoría de la probabilidad. Ambos son buenos para ponerse al día rápidamente si ya conoce la teoría de la medición).
- F. Harrell, Estrategias de modelado de regresión . (No es tan bueno como los Elementos de Aprendizaje Estadístico [ESL], pero tiene una visión diferente e interesante de las cosas. Cubre temas de estadísticas aplicadas más "tradicionales" que el ESL y por lo tanto vale la pena saberlo, sin duda).
Textos más avanzados (nivel de doctorado)
Lehmann y Casella, Teoría de la estimación puntual . (Tratamiento a nivel de doctorado de la estimación puntual. Parte del desafío de este libro es leerlo y descubrir qué es un error tipográfico y qué no lo es. Cuando vea que los reconoce rápidamente, sabrá que comprende. Hay mucha práctica de este tipo allí, especialmente si te sumerges en los problemas).
Lehmann y Romano, Prueba de hipótesis estadísticas . (Tratamiento a nivel de doctorado de pruebas de hipótesis. No hay tantos errores tipográficos como TPE arriba).
A. van der Vaart, Estadísticas asintóticas . (Un hermoso libro sobre la teoría asintótica de la estadística con buenos consejos sobre áreas de aplicación. Sin embargo, no es un libro aplicado. Mi única objeción es que se usa alguna notación bastante extraña y los detalles a veces se esconden debajo de la alfombra).