Recomendaciones para artículos no técnicos pero profundos en estadística


24

La inspiración para esta pregunta proviene del conocido artículo de Leo-Breiman, Estadística: Las dos culturas (acceso abierto disponible). El autor compara lo que ve como dos enfoques dispares para analizar datos, tocando ideas clave en estadística clásica y aprendizaje automático. Sin embargo, el artículo es inteligible para una amplia audiencia, posiblemente para cualquiera que trabaje con datos, independientemente de si han seguido estadísticas a nivel de doctorado o solo han tomado un curso introductorio. Además, el artículo es estimulante . Es decir, genera fácilmente discusión (como lo demuestra la serie de comentarios animados publicados en el mismo número).

Tengo curiosidad por descubrir más artículos con estas cualidades. Es decir, artículos que:

  • Toca los conceptos fundamentales en estadística / análisis de datos.
  • Puede ser entendido por una amplia audiencia en términos de variación en el enfoque de investigación y capacitación estadística formal
  • Estimular la discusión, ya sea a través de la perspicacia o la controversia.

2
¡Las respuestas hasta ahora han sido muy interesantes! Manténlos viniendo. Por supuesto, no aceptaré ninguna de las respuestas según meta.stats.stackexchange.com/questions/409/…
Richard Border

2
No hay camino real a las estadísticas.
Aksakal

Respuestas:


15

Shmueli, Galit. "¿Para explicar o predecir?" Ciencia estadística (2010): 289-310.

Creo que coincide con tus tres puntos.

Habla sobre modelos explicativos versus modelos predictivos (los términos deben explicarse por sí mismos) y señala que las diferencias entre ellos a menudo no se reconocen.

Plantea el punto de que dependiendo del objetivo del modelado (explicativo versus predictivo), se podrían usar diferentes estrategias de construcción de modelos y se podrían seleccionar diferentes modelos como "el mejor" modelo.

Es un artículo bastante completo y una lectura agradable. Una discusión sobre esto se resume en la publicación del blog de Rob J. Hyndman . Una discusión relacionada sobre Cross Validated está en este hilo (con muchos votos a favor). Otra pregunta (sin respuesta) sobre el mismo tema es esta .


12

Lehmann, Erich L. "Las teorías de Fisher, Neyman-Pearson de probar hipótesis: ¿una teoría o dos?" Revista de la Asociación Americana de Estadística 88.424 (1993): 1242-1249.

Muchos no lo saben, pero cuando los gigantes de la profesión todavía estaban entre nosotros, no se llevaban bien entre ellos. El debate sobre los fundamentos de la prueba de hipótesis específicamente, ya sea inductivo o deductivo, vio algunos insultos bastante serios volando entre Fisher, por un lado, y Neyman-Pearson, por el otro. Y el problema nunca se resolvió durante sus vidas.

Mucho después de que todos hayan pasado, Lehmann intenta cerrar la brecha y, en mi opinión, hace un buen trabajo, ya que muestra que los enfoques son complementarios en lugar de mutuamente excluyentes. Esto es lo que los estudiantes aprenden hoy en día por cierto. Necesita saber algunas cosas básicas sobre la prueba de hipótesis, pero de lo contrario puede seguir el documento sin ningún problema.


1
Gracias por la cita. Una vez hice una pregunta sobre el supuesto conflicto entre los enfoques F y NP: stats.stackexchange.com/questions/112769 , y a pesar de la gran atención y votos recibidos, todavía no estoy convencido por ninguna de las respuestas existentes (y no aceptar cualquiera). Planeo volver a ese hilo y leer un poco / poner una recompensa o algo así, pero nunca encuentro tiempo; Si está familiarizado con el artículo de Lehmann, le animo a que contribuya con una respuesta allí.
ameba dice Reinstate Monica

@amoeba He leído el documento de Lehmann una y otra vez, es muy legible, pero no creo que haya investigado el asunto tan a fondo como usted. Entonces, cuando tenga tiempo, sería una buena idea que lo revise y vea su punto de vista. Encontrará la discusión del problema de Behrens-Fisher particularmente reveladora.
JohnK

Gracias por compartir. Tal vez todo lo que he escuchado ha sido bastante unilateral, pero todo lo que he oído sobre Sir Ron Fisher es que era un hombre bastante desagradable con quien tratar, por decir lo menos. También tenía algunas opiniones cuestionables sobre el vínculo entre el consumo de tabaco y el cáncer de pulmón .
Phil

Una alternativa "más ligera" al artículo es Christensen, Ronald. "Prueba de Fisher, Neyman, Pearson y Bayes". The American Statistician 59.2 (2005): 121-126. Lo encontré agradable.
Richard Hardy

9

Wilk, MB y Gnanadesikan, R. 1968. Métodos de trazado de probabilidad para el análisis de datos. Biometrika 55: 1-17. Enlace Jstor si tiene acceso

Este documento tiene, en el momento de mi escritura, casi 50 años, pero aún se siente fresco e innovador. Utilizando una gran variedad de ejemplos interesantes y sustanciales, los autores unifican y amplían una variedad de ideas para trazar y comparar distribuciones utilizando el marco de parcelas QQ (cuantil-cuantil) y PP (probabilidad-probabilidad). Las distribuciones aquí significan ampliamente cualquier conjunto de datos o de números (residuales, contrastes, etc., etc.) que surjan en sus análisis.

Las versiones particulares de estas gráficas se remontan a varias décadas, más obviamente gráficas de probabilidad normal o de puntuaciones normales. que son en estos términos gráficos cuantil-cuantil, es decir, gráficos de cuantiles observados versus cuantiles esperados o teóricos de una muestra del mismo tamaño de una distribución normal (gaussiana). Pero los autores muestran, con modestia pero con confianza, que las mismas ideas pueden extenderse fácilmente, y prácticamente con la informática moderna, para examinar otros tipos de cuantiles y trazar los resultados automáticamente.

Los autores, que trabajaban en Bell Telephone Laboratories, disfrutaron de las instalaciones informáticas de vanguardia, e incluso muchas universidades e instituciones de investigación tardaron aproximadamente una década en ponerse al día. Incluso ahora, las ideas en este documento merecen una aplicación más amplia de la que tienen. Es un texto o curso introductorio raro que incluye cualquiera de estas ideas además de la trama QQ normal. Los histogramas y las gráficas de caja (cada una de ellas muy útil, pero no obstante incómoda y limitada de varias maneras) continúan siendo los principales elementos básicos cuando se introducen las gráficas de distribuciones.

A nivel personal, aunque las ideas principales de este documento han sido familiares durante la mayor parte de mi carrera, disfruto releerlo cada dos años más o menos. Una buena razón es el placer por la forma en que los autores producen ideas simples pero poderosas con buenos resultados con ejemplos serios. Otra buena razón es la forma en que el documento, que está escrito de manera concisa, sin el más mínimo rastro de arrogancia, insinúa extensiones de las ideas principales. Más de una vez, he redescubierto giros en las ideas principales cubiertas explícitamente en sugerencias laterales y comentarios adicionales.

Este no es solo un documento para aquellos especialmente interesados ​​en gráficos estadísticos, aunque en mi opinión eso debería incluir a todos los interesados ​​en estadísticas de cualquier tipo. Promueve formas de pensar acerca de las distribuciones que son prácticamente útiles para desarrollar las habilidades e ideas estadísticas de cualquier persona.


2
Esta es una gran elección. Lo he leído varias veces. Tan pronto como vi los nombres de los autores en su respuesta, supe de qué papel se trataba, y enseguida quise volver a leerlo. Creo que tengo una copia aquí en alguna parte ...
Glen_b -Reinstalar a Monica

6

Ioannidis, John PA "Por qué los hallazgos de investigación más publicados son falsos". PLoS Medicine (2005)

Ioannidis, John PA "Cómo hacer realidad más investigaciones publicadas". PLoS Medicine (2014)

Debe leer para cada investigador / estadístico / analista que quiera evitar los peligros de usar e interpretar estadísticas incorrectamente en la investigación. El artículo de 2005 ha sido el más visitado en la historia de la Biblioteca Pública de Ciencias, y ha generado mucha controversia y discusión.


6

Tukey, JW (1960) Conclusiones vs Decisiones Technometrics 2 (4): 423-433

Este documento se basa en una charla de Tukey después de la cena y hay un comentario que dice que "se produjo una discusión considerable" por lo que coincide con al menos el tercio de sus puntos.

Leí este documento por primera vez cuando estaba completando un doctorado en ingeniería y aprecié su exploración de los aspectos prácticos del análisis de datos.


El enlace no funciona. Esto funciona
kjetil b halvorsen

5

Efron y Morris, 1977, la paradoja de Stein en estadística .

Efron y Morris escribieron una serie de documentos técnicos sobre el estimador James-Stein en la década de 1970, enmarcando la "paradoja" de Stein en el contexto empírico de Bayes. El artículo de 1977 es uno popular publicado en Scientific American .

Es una gran lectura.


3

Bueno, a pesar del mayor interés en Roy Model entre los economistas (pero puedo estar equivocado), su documento original "Some Thoughts on the Distribution of Earnings" de 1951, es una discusión perspicaz y no técnica sobre el problema de la autoselección. Este documento sirvió de inspiración para los modelos de selección desarrollados por el premio nobel James Heckman. Aunque viejo, creo que coincide con tus tres puntos.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.