¿Hay documentos altamente citados sobre estadísticas que realmente han difundido malas prácticas estadísticas?


13

Obviamente, hay muchas formas de abusar de los métodos estadísticos. ¿Conoce algún ejemplo de mala práctica estadística que se publicó por primera vez como un consejo explícito (por ejemplo, "debe usar este método para ..."), en revistas académicas acreditadas que luego fueron citadas repetidamente?

Un ejemplo podría ser la regla de 10 eventos por predictor que a menudo se invoca para modelos de regresión logística o Cox PH ( LINK ).

Para ser claros, no me refiero a artículos altamente citados que utilizaron métodos de estadísticas deficientes; desafortunadamente, estos son trivialmente comunes.


3
¿Está buscando una publicación original en revistas estadísticas ? Las malas prácticas estadísticas no tienen fin y se propagan en revistas no estadísticas (y cuando un revisor señala que algo anda mal, los autores generalmente argumentan que lo dejamos "para vincular nuestro trabajo a investigaciones previas"). Sin embargo, puede ser difícil descubrir una publicación original para cosas como discretizar resultados continuos, ya que las malas ideas surgen de forma independiente.
Stephan Kolassa

Me refiero a lo expresado como consejo explícito, por ejemplo, "haz esto ...". He editado la pregunta para aclarar. Gracias.
DL Dahly

2
No suele ver comandos explícitos de "hacer esto" en los diarios de estadísticas. Lo ve en algunas áreas de aplicación, particularmente cuando está escrito por personas que critican algunas prácticas problemáticas (donde a veces dicen 'no hagas A, haz B', pero pueden dar consejos bastante dudosos. ¿el tipo de cosas que buscas? No leo mucho revistas en otras áreas, pero he visto algunos artículos como ese en el pasado. (Aunque podría recordar exactamente dónde, sin embargo, no puedo decir que yo saber si alguno de ellos fue muy citado) ...
ctd

1
ctd ... Si bien no es un documento, puedo señalar algunos consejos dudosos en un libro de texto que parece ser popular entre las personas que aprenden a hacer estadísticas para la investigación en su área de aplicación.
Glen_b -Reinstala a Monica el

2
Explique qué quiere decir con "falsedad estadística". Este no es un concepto estándar en estadística, sino que se refiere a recomendar procedimientos que sean más o menos apropiados para una tarea determinada. Sí, se sabe que algunos procedimientos son más pobres que otros, pero es difícil interpretar su uso como una "falsedad". Por "falsedad" se refiere a algún tipo de interpretación engañosa, o consejo para usar un procedimiento inadmisible, o consejo basado en un error matemático, o ... ¿qué?
whuber

Respuestas:


4

RA Fisher, "La disposición de los experimentos de campo". Revista del Ministerio de Agricultura de Gran Bretaña. 33: 503-513. 1926

Según diversas fuentes en Internet, este documento es el origen del uso de como umbral de significancia en una prueba estadística arbitraria.α=0,05

... es conveniente trazar la línea aproximadamente al nivel en el que podemos decir: "O hay algo en el tratamiento, o ha ocurrido una coincidencia que no ocurre más de una vez en veinte ensayos".

... Si uno de cada veinte no parece tener suficientes probabilidades, podemos, si lo preferimos, trazar la línea en uno de cada cincuenta (el punto del 2 por ciento), o uno de cada cien (el punto del 1 por ciento). Personalmente, el escritor prefiere establecer un bajo estándar de significancia en el punto del 5% e ignorar por completo todos los resultados que no alcanzan este nivel. Un hecho científico debe considerarse como establecido experimentalmente solo si un experimento diseñado adecuadamente rara vez falla en dar este nivel de importancia.


3

En econometría, ciertamente puede encontrar algún ejemplo de métodos propagados por econométricos bien conocidos (y altamente calificados) publicados en revistas decentes. No conozco un artículo teórico, pero Lalonde (1986) es bastante famoso por señalar que los métodos utilizados actualmente no funcionan bien: compara los métodos experimentales del mismo conjunto de datos con los observacionales y encuentra grandes diferencias en el campo del tratamiento (causal) evaluación . Existe una gran literatura que propagó estos métodos no experimentales que se utilizaron en aquel entonces y que a menudo todavía se usan en la actualidad.

Posteriormente, hubo (y creo que todavía hay) un debate sobre si la coincidencia de puntaje de propensión es una posible solución (ver, por ejemplo, aquí ).

Además, existe mucha controversia sobre la estimación de variables instrumentales . Las conclusiones de artículos originales muy citados han sido cuestionadas. Este es probablemente el ejemplo más cercano a su pregunta. Bound y Jaeger (1996, y documentos posteriores) han cuestionado los hallazgos del conocido artículo de Angrist y Krueger (1991; 2700 citas según Google Scholar) que básicamente estableció el método de la variable instrumental en la literatura de econometría aplicada.

También existe un gran debate sobre la idoneidad de las llamadas estimaciones de forma reducida para establecer la causalidad, véase, por ejemplo, Imbens (2010) .

Otro gran tema es, por supuesto, sobre el error estándar. Quizás se pueda encontrar un papel conocido que propague valores p. En econometría, el error estándar para series de tiempo más largas a menudo se ha calculado mal (en el diseño de diferencia en diferencia ) debido a métodos existentes incorrectos, ver aquí . Sin embargo, no conozco un documento original altamente citado que proponga estos métodos en ese contexto, pero estoy seguro de que encontrará algunos ejemplos en esta área.

Fuentes:

Angrist, Joshua D. y Alan B. Keueger. "¿La asistencia escolar obligatoria afecta la escolaridad y los ingresos?" The Quarterly Journal of Economics 106, núm. 4 (1991): 979-1014.

Bertrand, Marianne, Esther Duflo y Sendhil Mullainathan. "¿Cuánto debemos confiar en las estimaciones de diferencias en diferencias?" La revista trimestral de economía 119, no. 1 (2004): 249-275.

Bound, John y David A. Jaeger. Sobre la validez de la temporada de nacimiento como instrumento en las ecuaciones salariales: un comentario sobre "La asistencia obligatoria a la escuela de Angrist & Krueger afecta Scho. No. w5835. Oficina Nacional de Investigación Económica, 1996.

Dehejia, Rajeev. "Coincidencia práctica de puntaje de propensión: una respuesta a Smith y Todd". Revista de econometría 125, no. 1-2 (2005): 355-364.

Imbens, Guido W. "Mejor TARDE que nada: Algunos comentarios sobre Deaton (2009) y Heckman y Urzua (2009)". Revista de literatura económica 48, no. 2 (2010): 399-423.

LaLonde, Robert J. "Evaluación de las evaluaciones econométricas de programas de capacitación con datos experimentales". The American Economic Review (1986): 604-620. *


1

Lo intento (aunque no tan fuerte):

Lo muy útil [Cameron, AC y Miller, DL (2015). Guía de un practicante para inferencia robusta en clúster. Journal of Human Resources, 50 (2), 317-372.] // ya 1900 citas académicas de Google // proporciona consejos sobre el nivel apropiado de agrupamiento de errores estándar:

"El consenso es ser conservador y evitar sesgos y utilizar grupos más grandes y agregados cuando sea posible, hasta el punto en el que existe la preocupación de tener muy pocos grupos".

Sin embargo, [Abadie, A., Athey, S., Imbens, GW y Wooldridge, J. (2017). ¿Cuándo debe ajustar los errores estándar para la agrupación? (No. w24003). Oficina Nacional de Investigación Económica.] Muestra que "de hecho hay daño en la agrupación a un nivel demasiado agregado". Consulte la página 1 de más adelante: https://economics.mit.edu/files/13927

Tal vez también podría hacer un caso más sólido a partir de los dos conceptos erróneos resaltados por Abadie et al (2017).

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.