¿Cuáles son algunos ejemplos de prácticas anacrónicas en estadística?


55

Me refiero a prácticas que aún mantienen su presencia, a pesar de que los problemas (generalmente computacionales) para los que fueron diseñados han sido resueltos.

Por ejemplo, la corrección de continuidad de Yates se inventó para aproximar la prueba exacta de Fisher con la prueba , pero ya no es práctica ya que el software ahora puede manejar la prueba de Fisher incluso con muestras grandes (sé que este puede no ser un buen ejemplo de " mantener su presencia ", ya que los libros de texto, como el Análisis de datos categóricos de Agresti , a menudo reconocen que la corrección de Yates" ya no es necesaria ").χ2

¿Cuáles son algunos otros ejemplos de tales prácticas?


En realidad, no estoy tan seguro de que la prueba de ji cuadrado se haya vuelto obsoleta debido a la disponibilidad de potencia informática para realizar la prueba exacta de Fisher, por ejemplo, ¿están realmente fijos sus márgenes? Vea esta respuesta a otra pregunta de @gung, por ejemplo. (Estoy bastante seguro de que tenemos un hilo que discute el tema con más detalle, pero no puedo encontrarlo ya que tenemos muchas preguntas de "¿debería usar chi-cuadrado o debería usar la prueba exacta de Fisher" que aparece cuando ¡Lo busco!)
Silverfish

@Silverfish: no quise decir que quedó obsoleto, solo la corrección de Yates lo fue. Creo que los estudios han demostrado que la corrección de Yates es demasiado conservadora cuando los márgenes no son fijos. El artículo de Michael Haber La corrección de continuidad y las pruebas estadísticas proporcionaron una revisión. χ2
Francis


usando OLS en lugar de LAD?
PatrickT

55
@PatrickT: Tengo muchos problemas para llamar anacrónico a OLS. Claro, hay casos especiales cuando LAD es claramente superior ... pero lo mismo se puede decir en la otra dirección.
Cliff AB

Respuestas:


49

Es muy discutible que el uso de niveles de significancia umbral como o sea ​​una resaca histórica de un período en el que la mayoría de los investigadores dependían de tablas de valores críticos previamente calculadas. Ahora un buen software dará valores directamente. De hecho, un buen software le permite personalizar su análisis y no depender de las pruebas de libros de texto.P = 0.01 PP=0.05P=0.01P

Esto es polémico solo porque algunos problemas de prueba de importancia requieren decisiones, como en el control de calidad, donde aceptar o rechazar un lote es la decisión necesaria, seguida de una acción en ambos sentidos. Pero incluso allí, los umbrales que se utilizarán deberían surgir de un análisis de riesgos, no depender de la tradición. Y a menudo en las ciencias, el análisis de las indicaciones cuantitativas es más apropiado que las decisiones: pensar cuantitativamente implica prestar atención a los tamaños de los valores y no solo a una dicotomía cruda, significativa versus no significativa.P

Señalaré que toco aquí un tema complejo y controvertido que es el foco de libros enteros y probablemente miles de artículos, pero parece un buen ejemplo para este hilo.


44
Gran ejemplo! Como referencia, vale la pena mencionar este hilo: con respecto a los valores p, ¿por qué 1% y 5%? ¿Por qué no 6% o 10%?
Francis

55
@ JM Estoy 95% seguro de que tienes razón, aunque no estoy 99% seguro.
Mark L. Stone

55
En realidad, no estoy seguro de que este sea un gran ejemplo. Si bien es cierto que es mucho más fácil probar cosas a de lo que solía ser, nunca he visto un buen argumento de por qué querría , fuera de casos especiales (es decir, control de calidad), en cuyo caso no lo hago ' No sé que todavía se usan niveles de significancia arbitrarios. α=0.038561
Cliff AB

44
@CliffAB No creo que el punto principal de un valor P exacto sea que luego decidas que constituye el nivel crítico que quieres adoptar para tomar una decisión. Ciertamente no estoy sugiriendo ni abogando por eso. Parte del argumento aquí no es solo que 0.05 y 0.01 están en los mejores niveles convencionales, sino que las pruebas proporcionan una forma de evaluar la fuerza de la evidencia contra una hipótesis nula en lugar de tomar una decisión binaria. En la práctica, los niveles de 0.05 y 0.01 siguen siendo muy utilizados en muchos campos.
Nick Cox

44
@Nick Cox Y no olvides el nivel 0.1 para la gente tranquila y apacible.
Mark L. Stone

24

Un método en el que creo que muchos visitantes de este sitio estarán de acuerdo conmigo es la regresión gradual. Todavía se hace todo el tiempo, pero no tiene que buscar mucho para encontrar expertos en este sitio que digan lamentar su uso. Se prefiere mucho un método como LASSO.


44
¡¡DECIR AH!! Estás recomendando el reemplazo de un anacronismo (regresión gradual) con el anacronismo de la próxima generación (LASSO), que es un anacronismo en su propio tiempo, cuyos adherentes aún no se dan cuenta. Ver stats.stackexchange.com/questions/162861/… .
Mark L. Stone

3
@ MarkL.Stone: Hola hombre, al menos son 20 años en la dirección correcta. No estoy tan familiarizado con estos métodos, por lo que tendría que leerlos antes de darles mi respaldo.
Cliff AB

2
Después de leer rápidamente el artículo, dudo un poco en decidir que LASSO está oficialmente desactualizado, aunque claramente no siempre es la opción óptima. Tal vez en 5 años me sienta más cómodo llamando LASSO obsoleto.
Cliff AB

2
@amoeba: Creo que Mark se está refiriendo a la práctica de usar LASSO como una herramienta para la mejor regresión de subconjuntos. Por ejemplo, recuerdo vagamente haber leído a alguien hablar primero sobre la adaptación de LASSO y luego volver a colocar un modelo no penalizado utilizando los parámetros de regresión distintos de cero. La mejor regresión de subconjuntos puede ser una forma más directa de hacerlo (aunque, como usted dice, no está claro que sea una buena idea, incluso si es lo que el analista quiere hacer).
Cliff AB

2
... y el documento presenta al menos una situación (es decir, simulación bajo ciertos parámetros) donde claramente realiza LASSO, aunque creo que todos sabemos exactamente qué tan en serio debemos tomar esos resultados por sí mismos.
Cliff AB

17

Mi opinión es que, al menos en econometría (aplicada), es cada vez más la norma usar la matriz de covarianza robusta o empírica en lugar de la "práctica anacrónica" de confiar (asintóticamente) en la especificación correcta de la matriz de covarianza. Por supuesto, esto no está exento de controversia: vea algunas de las respuestas que vinculé aquí en CrossValidated, pero sin duda es una tendencia clara.

Los ejemplos incluyen el error estándar robusto de heteroscedasticidad ( errores estándar de Eicker-Huber-White). Aparentemente, algunos investigadores como Angrist y Pischke aconsejan usar siempre un error estándar robusto de heteroscedasticidad en lugar del procedimiento "anacrónico" para usar el error estándar normal como predeterminado y verificar si la suposición está justificada.E[uu]=σ2In

Otros ejemplos incluyen datos de panel, Imbens y Wooldridge escriben, por ejemplo, en sus diapositivas de conferencias argumentando en contra del uso de la matriz de covarianza de varianza de efectos aleatorios (suponiendo implícitamente alguna especificación errónea en el componente de varianza por defecto):

La inferencia totalmente robusta está disponible y generalmente debe usarse. (Nota: ¡la matriz de varianza RE habitual, que depende solo de y , no necesita especificarse correctamente! Todavía tiene sentido usarla en la estimación, pero hace que la inferencia sea robusta). σ 2 uσc2σu2

Usando modelos lineales generalizados (para distribuciones que pertenecen a la familia exponencial), a menudo se recomienda usar siempre el llamado estimador sándwich en lugar de confiar en supuestos de distribución correctos (la práctica anacrónica aquí): vea por ejemplo esta respuesta o la referencia de Cameron para contar datos porque la estimación de probabilidad de pseudo-máxima puede ser bastante flexible en el caso de una especificación errónea (por ejemplo, usar Poisson si el binomio negativo sería correcto).

Tales correcciones de error estándar [Blanco] deben hacerse para la regresión de Poisson, ya que pueden hacer una diferencia mucho mayor que las correcciones de heterocedasticidad similares para OLS.

Greene escribe en su libro de texto en el Capítulo 14 (disponible en su sitio web), por ejemplo, con una nota crítica y detalla más las ventajas y desventajas de esta práctica:

Existe una tendencia en la literatura actual para calcular este estimador [sándwich] de forma rutinaria, independientemente de la función de probabilidad. * [...] * Hacemos hincapié una vez más en que el estimador sándwich, en sí mismo, no es necesariamente de ninguna virtud si la función de probabilidad está mal especificada y las otras condiciones para el estimador M no se cumplen.


44
Interesante, pero la pregunta es qué es anacrónico, no qué es ahora cada vez más estándar, por lo que la respuesta debe invertirse.
Nick Cox

1
Hola Nick, gracias por tu comentario (y tus ediciones), modifiqué el texto para resaltar cuál es la práctica anacrónica, espero que se aclare un poco más. No invertí todo el texto, ya que la práctica anterior está cerca de no hacer nada especialmente sobre el error estándar.
Arne Jonas Warnke

En algunos casos, no es natural y no es posible utilizar alternativas robustas, digamos series de tiempo. Así que creo que no se está volviendo "más popular" sino simplemente "más popular en algunas áreas".
Henry.L

13

Un método que se usa innecesariamente todo el tiempo es la corrección de Bonferroni a los valores p. Si bien las comparaciones múltiples son un problema tan grande como siempre, la corrección de Bonferroni es esencialmente obsoleta para los valores p: para cualquier situación en la que la corrección de Bonferroni sea válida, también lo es Holm-Bonferroni, que tendrá un poder estrictamente más alto bajo alternativa si , donde es el número de hipótesis probadas (igualdad en ).m m = 1m>1mm=1

Creo que la razón de la persistencia de la corrección de Bonferroni es la facilidad de uso mental (es decir, p = 0.004 con se ajusta fácilmente a 0.12, mientras que Holm-Bonferroni requiere la clasificación de los valores de p).m=30


Vine aqui para publicar esto. Además: no estoy convencido de que haya alguna situación en la que se preferiría FWER a los métodos FDR aún más nuevos (debido a la escalabilidad y la adaptabilidad).
Alexis

13

La mayoría de las prácticas anacrónicas probablemente se deban a la forma en que se enseñan las estadísticas y al hecho de que un gran número de personas realizan análisis y solo han tomado un par de clases básicas. A menudo enseñamos un conjunto de ideas y procedimientos estadísticos estándar porque forman una secuencia lógica de creciente sofisticación conceptual que tiene sentido pedagógicamente (cf. ¿Cómo podemos conocer la varianza de la población? ). Yo mismo soy culpable de esto: ocasionalmente enseño estadísticas 101 y 102, y constantemente digo, 'hay una mejor manera de hacer esto, pero está más allá del alcance de esta clase'. Para aquellos estudiantes que no van más allá de la secuencia introductoria (casi todos), se quedan con estrategias básicas, pero reemplazadas.

  1. Para un ejemplo de estadísticas 101, probablemente la práctica anacrónica más común es probar algunas suposiciones y luego ejecutar un análisis estadístico tradicional porque la prueba no fue significativa. Un enfoque más moderno / avanzado / defendible sería utilizar un método robusto a esa suposición desde el principio. Algunas referencias para más información:

  2. Para los ejemplos de estadísticas 102, cualquier número de prácticas de modelado ha quedado anticuado:

    • Transformando para lograr la normalidad de los residuos para obtener valores confiables frente a bootstrapping. pYp
    • Transformando para lograr la homocedasticidad en lugar de usar un estimador sandwich, etc. Y
    • Usando un polinomio de orden superior para capturar curvatura vs. splines cúbicas.
    • Evaluar modelos destinados a la predicción utilizando valores y métricas de bondad de ajuste en la muestra como lugar de validación cruzada. R 2pR2
    • Con datos de medidas repetidas, categorizando una variable continua para que rmANOVA se pueda usar o promediando mediciones múltiples versus usando un modelo mixto lineal.
    • Etc.

El punto en todos estos casos es que las personas están haciendo lo que se les enseñó primero en una clase introductoria porque simplemente no conocen métodos más avanzados y apropiados.


5

Un ejemplo muy interesante son las pruebas de raíz unitaria en econometría. Si bien hay muchas opciones disponibles para probar o para una raíz unitaria en el polinomio de retraso de una serie de tiempo (por ejemplo, la Prueba de Dickey Fuller (Aumentada) o la prueba de KPSS), el problema se puede eludir por completo cuando se usa el análisis bayesiano . Sims señaló esto en su provocativo artículo titulado Understanding Unit Rooters: A Helicopter Tour from 1991.

Las pruebas de raíz unitaria siguen siendo válidas y se utilizan en econometría. Si bien personalmente atribuiría esto principalmente a las personas reacias a adaptarse a las prácticas bayesianas, muchos economometristas conservadores defienden la práctica de las pruebas de raíz unitaria al decir que una visión bayesiana del mundo contradice la premisa de la investigación econométrica. (Es decir, los economistas piensan que el mundo es un lugar con parámetros fijos, no parámetros aleatorios que se rigen por algún hiperparámetro).


55
Me interesaría una breve discusión sobre cómo las prácticas bayesianas eluden estas pruebas. En otras palabras, ¿cómo presentaría el caso para este reclamo?
Mike Hunter

Tengo que admitir que ha pasado un tiempo desde que leí el artículo, pero el punto principal es que usando un previo plano para el análisis bayesiano de una serie de tiempo, uno puede usar los valores t estándar.
Jeremías K

5

Pagar tarifas de licencia para sistemas de software estadístico de alta calidad. #R


1

La enseñanza / realización de pruebas de dos colas para la diferencia sin probar simultáneamente la equivalencia en el ámbito frecuentista de las pruebas de hipótesis es un profundo compromiso con el sesgo de confirmación .

Hay algunos matices, en el sentido de que un análisis de poder apropiado con una definición reflexiva del tamaño del efecto puede evitar esto y proporcionar más o menos el mismo tipo de inferencias, pero (a) los análisis de poder a menudo se ignoran al presentar los hallazgos, y (b) I nunca he visto un análisis de potencia para, por ejemplo, cada coeficiente estimado para cada variable en una regresión múltiple, pero es sencillo hacerlo para pruebas combinadas de diferencia y pruebas de equivalencia (es decir, pruebas de relevancia).


0

¿Usa un modelo binomial negativo en lugar de un modelo de Poisson (robusto) para identificar un parámetro de interés en una variable de recuento, solo porque hay una sobredispersión?

Ver como referencia: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

La prueba de que Poisson es más robusto en el caso de los efectos fijos es bastante reciente, ya que a menudo se hace referencia a: Wooldridge, JM, "Estimación sin distribución de algunos modelos de datos de panel no lineales", Journal of Econometrics 90 (1999), 77-97.


-6

Aquí hay algunos anacronismos:

  • La suposición neoplatónica de que hay una sola población "verdadera" en el éter teórico que es eterna, fija e inmóvil contra la cual nuestras muestras imperfectas pueden ser evaluadas hace poco para avanzar en el aprendizaje y el conocimiento.

  • El reduccionismo inherente a mandatos como la Navaja de Occam es inconsistente con los tiempos. O puede resumirse como: "Entre las hipótesis en competencia, se debe seleccionar la que tenga menos suposiciones". Las alternativas incluyen el Principio de Explicaciones Múltiples de Epicuro , que dice más o menos: "Si más de una teoría es consistente con los datos, consérvelos todos".

  • Todo el sistema de revisión por pares necesita urgentemente una revisión.

* Editar *

  • Con datos masivos que contienen decenas de millones de características, ya no es necesaria una fase de selección variable.

  • Además, las estadísticas inferenciales no tienen sentido.


Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .
whuber
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.