¿Qué aprender después de Casella & Berger?


22

Soy un estudiante graduado de matemática pura con poca experiencia en matemática aplicada. Desde el otoño pasado, he estado tomando clases sobre el libro de Casella & Berger, y he terminado cientos (más de 230) páginas de problemas de ejercicio en el libro. En este momento estoy en el Capítulo 10.

Sin embargo, como no me especialicé en estadística ni planeé ser estadístico, no creo que pueda invertir tiempo regularmente para continuar aprendiendo el análisis de datos. Mi experiencia hasta el momento me dice que, para ser estadístico, uno debe soportar muchos cálculos tediosos que involucran varias distribuciones (Weibull, Cauchy, t , ...). Encontré que aunque las ideas fundamentales son simples, la implementación (por ejemplo, el LRT en la prueba de hipótesis) puede ser difícil debido a los tecnicismos.F

¿Es correcto mi entendimiento? ¿Hay alguna manera de aprender probabilidades y estadísticas que no solo cubran material más avanzado, sino que también puedan ayudar en caso de que necesite un análisis de datos en la vida real? ¿Tendré que pasar 20 horas a la semana como solía hacerlo?

Si bien creo que no hay un camino real en el aprendizaje de las matemáticas, a menudo no puedo evitar preguntarme: la mayoría de las veces no sabemos cuál es la distribución de los datos de la vida real, entonces, ¿cuál es el propósito para que nos centremos exclusivamente en varias familias de distribuciones? ? Si el tamaño de la muestra es pequeño y el teorema del límite central no se aplica, ¿cómo podemos analizar adecuadamente los datos además del promedio de la muestra y la varianza si la distribución es desconocida?

Mi semestre terminará en un mes, y no quiero que mis conocimientos se evaporen después de comenzar a centrarme en mi investigación de doctorado. Entonces decidí preguntar. Estoy aprendiendo R, y tengo algo de experiencia en programación, pero mi nivel es casi el mismo que un código mono.

Respuestas:


24

No creo que pueda invertir tiempo regularmente para continuar aprendiendo análisis de datos

No creo que Casella & Berger sea un lugar para aprender muchos datos en el camino de análisis datos . Es un lugar para aprender algunas de las herramientas de la teoría estadística.

Mi experiencia hasta ahora diciéndome que soy estadístico debe soportar muchos cálculos tediosos que involucran varias distribuciones (Weibull, Cauchy, t, F ...).

He pasado mucho tiempo como estadístico haciendo análisis de datos. Raramente (casi nunca) me involucra haciendo cálculos tediosos. A veces implica un poco de álgebra simple, pero los problemas comunes generalmente se resuelven y no necesito hacer ningún esfuerzo para replicar eso cada vez.

La computadora hace todo el tedioso cálculo.

Si estoy en una situación en la que no estoy preparado para asumir un caso razonablemente estándar (por ejemplo, no estoy preparado para usar un GLM), generalmente tampoco tengo suficiente información para asumir ninguna otra distribución, por lo que la cuestión de los cálculos en LRT suele ser discutible (puedo hacerlo cuando lo necesito, simplemente tienden a estar resueltos o surgen tan raramente que es una diversión interesante).

Tiendo a simular mucho; También intento con frecuencia utilizar el remuestreo de alguna forma, ya sea junto o en lugar de supuestos paramétricos.

¿Tendré que gastar 20 horas o más por semana como solía hacerlo?

Depende de lo que quieras hacer y de cuán pronto quieras ser bueno en eso.

El análisis de datos es una habilidad y requiere práctica y una gran base de conocimiento. Ya tendrás algunos de los conocimientos que necesitas.

Si quieres ser un buen practicante en una gran variedad de cosas, tomará mucho tiempo, pero en mi opinión es mucho más divertido que el álgebra y hacer ejercicios de Casella y Berger.

Algunas de las habilidades que desarrollé sobre, digamos, problemas de regresión son útiles con series de tiempo, por ejemplo, pero se necesitan muchas habilidades nuevas. Así que aprender a interpretar gráficos residuales y gráficos QQ es útil, pero no me dicen cuánto tengo que preocuparme por un pequeño golpe en un gráfico PACF y no me dan herramientas como el uso de la predicción de un paso adelante errores

Entonces, por ejemplo, no necesito hacer un esfuerzo para descubrir cómo hacer un NM razonablemente para los modelos típicos gamma o weibull , porque son lo suficientemente estándar como para resolver problemas que ya se han puesto en una forma conveniente.

Si vienes a investigar , necesitarás muchas más habilidades que adquieres en lugares como Casella & Berger (pero incluso con ese tipo de habilidades, también deberías leer más de un libro).


Algunas cosas sugeridas:

Definitivamente deberías desarrollar algunas habilidades de regresión, incluso si no haces nada más.

Hay varios libros bastante buenos, pero quizás Draper & Smith Applied Regression Analysis más Fox y Weisberg An R Companion to Applied Regression ; También te sugiero que consideres seguir las estrategias de modelado de regresión de Harrell

(Puede sustituir Draper y Smith por cualquier cantidad de libros buenos; encuentre uno o dos que le convengan).

El segundo libro tiene varios capítulos adicionales en línea que vale mucho la pena leer (y su propio paquete R)

-

Una buena segunda porción serían las estadísticas aplicadas modernas de Venables y Ripley con S .

Esa es una base en una amplia gama de ideas.

Puede resultar que necesites material más básico en algunos temas (no conozco tus antecedentes).

Entonces deberá comenzar a pensar qué áreas de estadísticas desea / necesita: estadísticas bayesianas, series de tiempo, análisis multivariado, etc.


6

Mi consejo, desde la perspectiva opuesta (estudiante de doctorado de estadísticas) es trabajar a través de un libro de texto de regresión. Este parece un punto de partida natural para alguien con una sólida formación teórica sin ninguna experiencia aplicada. Sé que muchos estudiantes graduados de fuera de nuestro departamento comienzan en un curso de regresión.

Una buena es la regresión lineal aplicada de Sanford Weisberg . Creo que está en su cuarta versión. Probablemente puedas encontrar versiones anteriores relativamente baratas.

http://users.stat.umn.edu/~sandy/alr4ed/

Una cosa buena de este libro de texto, particularmente dada su relativa inexperiencia con R, es el manual de R disponible a través del enlace anterior. Proporciona instrucciones suficientes para recrear todo lo que se hace en el libro. De esta manera, puede aprender la regresión (además de algunos conceptos básicos de GLM), sin que su falta de programación R lo detenga (y probablemente aprenderá muchos de los elementos básicos de R en el camino).

Si desea una introducción exhaustiva a R, puede que le sirva mejor si visita An R Companion to Regresión Aplicada de Fox y Weisberg , pero parece que preferiría aprender estadísticas que programación (si esas dos cosas se pueden pensar por separado).

En lo que respecta a su compromiso de tiempo, realmente no creo que encuentre este libro de texto o material demasiado difícil. A diferencia de Casella-Berger, no habrá muchas pruebas o derivaciones. En general es bastante sencillo.

Por otro lado, parece haber soluciones flotando en línea (o en algún momento), por lo que podría intentar problemas, verificar soluciones y acelerar su trabajo a través del libro.


4

Estoy tratando de manera indirecta de ser más un estadístico, pero soy principalmente un psicólogo que tiene algunos intereses cuantitativos y metodológicos. Para hacer el trabajo psicométrico correctamente, he estado estudiando métodos avanzados (para un psicólogo) que no soñaría con calcular manualmente (y mucho menos sabría cómo). Me ha sorprendido lo accesibles y convenientes que se han vuelto estos métodos a través de todos los esfuerzos dedicados de los programadores de paquetes R durante la última década. He estado haciendo análisis de la vida real con nuevos métodos que aprendí a usar en mucho menos de 20 horas por método ... Podría pasar tanto tiempo en un nuevo método para cuando esté listo para publicar un el resultado es usarlo, pero ciertamente no hay necesidad de hacer un trabajo de medio tiempo estudiando solo para progresar como yo. Haz lo que puedas cuando encuentres el tiempo para hacerlo; no es una búsqueda de todo o nada si no lo necesitas.

Ciertamente no me he centrado exclusivamente en ningún tema, y ​​mucho menos en las familias de distribuciones; Dudo que cualquier estadístico honesto a bondad estudie tan estrechamente tampoco. He incursionado en distribuciones teóricas durante tal vez una hora por día en algunas ocasiones durante la semana pasada; Eso ha sido suficiente para demostrar su utilidad en aplicaciones de datos reales. Por lo que puedo decir, la idea no es tanto clasificar las distribuciones estrictamente; es reconocer formas de distribución que se parecen a las teorías y usarlas para ayudar a decidir los análisis apropiados y comprender la dinámica básica. He compartido pensamientos similares sobre mi respuesta más reciente a " ¿Es mejor seleccionar distribuciones basadas en teoría, ajuste u otra cosa? "

No ha dicho qué análisis desea realizar en lo que supongo que fue su hipotético peor de los casos, pero hay formas de estudiar la sensibilidad de cualquier análisis al error de muestreo. Si el CLT no se aplica, todavía hay varias preguntas estadísticas que puede hacer si sabe cómo. Los métodos no paramétricos generalmente hacen suposiciones muy limitadas sobre las distribuciones, por lo que el conocimiento previo de la forma de la distribución de una población no es necesariamente un problema importante.

El conocimiento en general realmente no se evapora tan rápido o completamente, pero si no lo usa, le resultará más difícil recordarlo libremente. Retendrá una ventaja de reconocimiento por mucho más tiempo, lo que podría ser útil si alguna vez necesita estudiar temas que ha estudiado varios años antes ... pero si desea seguir con fluidez lo que ha aprendido, continúe usándolo. y sigue aprendiendo! R es definitivamente un buen lugar para invertir cualquier tiempo libre de estudio que tenga. También debería ayudar con sus matemáticas puras: vea otra de mis respuestas recientes a "El mejor software de visualización de datos de código abierto para usar con PowerPoint ".


3

Me topé con este en 2019. Mis dos centavos.

Soy un profesor de estadística con una inclinación a hacer análisis de datos de varios tipos (¡por eso elegí las estadísticas!). Para adquirir algunos conocimientos prácticos, recomiendo James, Witten, Hastie y Tibshirani "Una introducción al aprendizaje estadístico". Incluso tienen un MOOC basado en eso. El libro utiliza muchos ejemplos de "datos reales" y también está basado en R.


¿Tiene algo que sugerir más allá de los "elementos del aprendizaje estadístico"? Creo que estoy familiarizado con (partes básicas de) el libro ahora.
Bombyx mori

2

Respondiendo por otros que vienen a esta pregunta más tarde ...


análisis de datos de la vida real

Aprenda bases de datos (SQL), dplyr / pandas, herramientas Unix (sed, grep), scraping, scripting, limpieza de datos y pruebas de software. Las diversas distribuciones especializadas tienen poco valor en la industria.

Un libro de regresión aplicado como Angrist & Pischke, Faraway o Weisberg, será un tipo de teoría más práctica.

la mayoría de las veces no sabemos cuál es la distribución de los datos de la vida real, entonces, ¿cuál es el propósito para que nos enfoquemos exclusivamente en varias familias de distribuciones?

De ahí el interés en las estadísticas no paramétricas. Pero al mismo tiempo no paramétrico sin supuestos es demasiado flojo. Para responder a su pregunta, las familias especializadas se pueden considerar como respuestas a preguntas simples que quizás pueda encontrar. Por ejemplo, pienso en un gaussiano como una estimación puntual "suave". Poisson responde otra pregunta simple. Cuando las personas construyen modelos matemáticos, estos especiales pueden ser puntos de apoyo útiles. (Pero los académicos a menudo toman la búsqueda de la distribución maestra de la manera incorrecta).

OP: ¡Espero que te hayas divertido con tu investigación de doctorado!

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.