¿Es esta la solución al problema del valor p?

En febrero de 2016, la Asociación Americana de Estadística emitió una declaración formal sobre significación estadística y valores p. Nuestro hilo al respecto discute estos temas ampliamente. Sin embargo, ninguna autoridad se ha presentado para ofrecer una alternativa efectiva universalmente reconocida, hasta ahora. La American Statistical Society (ASS) ha publicado su respuesta, valores p: ¿Qué sigue?

"El valor p no es bueno para mucho".

Creemos que la ASA no fue lo suficientemente lejos. Es hora de admitir que la era de los valores p ha terminado. Los estadísticos los han utilizado con éxito para desconcertar a los estudiantes universitarios, engañar a los científicos y engañar a los editores en todas partes, pero el mundo está empezando a ver a través de este truco. Necesitamos abandonar este intento de principios del siglo XX por parte de los estadísticos para controlar la toma de decisiones. Necesitamos volver a lo que realmente funciona.

La propuesta oficial de ASS es esta:

En lugar de valores p, el ASS aboga por el STOP (procedimiento SeaT-of-Pants). Este método antiguo y probado fue utilizado por los antiguos griegos, los hombres del renacimiento y todos los científicos hasta que apareció Ronald Fisher y arruinó las cosas. El STOP es simple, directo, basado en datos y autorizado. Para llevarlo a cabo, una figura de autoridad (un hombre mayor, de preferencia) revisa los datos y decide si están de acuerdo con su opinión. Cuando él decide que lo hacen, el resultado es "significativo". De lo contrario, no lo es y todos están obligados a olvidarse de todo.

Principios

La respuesta aborda cada uno de los seis principios de ASA.

El STOP puede indicar cuán incompatibles son los datos con un modelo estadístico especificado.

Nos gusta esta frase porque es una forma muy elegante de decir que STOP responderá cualquier pregunta sí o no. A diferencia de los valores p u otros procedimientos estadísticos, no deja dudas. Es la respuesta perfecta para aquellos que dicen "¡no necesitamos ninguna hipótesis nula apestosa! ¿Qué demonios es eso? Nadie podría darse cuenta de lo que se suponía que era ".
La PARADA no mide la probabilidad de que una hipótesis sea verdadera: en realidad decide si es cierta o no.

Todos están confundidos por las probabilidades. Al eliminar la probabilidad de la imagen, el STOP elimina la necesidad de años de estudios de pregrado y posgrado. Ahora, cualquiera (que sea lo suficientemente mayor como un hombre) puede realizar análisis estadísticos sin el dolor y la tortura de escuchar incluso una sola conferencia estadística o ejecutar un software arcano que arroje resultados ininteligibles.
Las conclusiones científicas y las decisiones comerciales o políticas pueden basarse en el sentido común y en figuras de autoridad real.

De todos modos, las autoridades siempre han tomado decisiones importantes, así que admitámoslo y eliminemos a los intermediarios. El uso de STOP liberará a los estadísticos para hacer lo que mejor les conviene: usar números para ofuscar la verdad y santificar las preferencias de aquellos en el poder.
La inferencia adecuada requiere informes completos y transparencia.

El STOP es el procedimiento estadístico más transparente y evidente que se haya inventado: mira los datos y decide. Elimina todas esas confusas pruebas z, pruebas t, pruebas de ji cuadrado y procedimientos de sopa de letras (ANOVA! GLM! MLE!) Utilizados por las personas para ocultar el hecho de que no tienen idea de lo que significan los datos.
El STOP mide la importancia del resultado.

Esto es evidente: si una persona con autoridad emplea el STOP, entonces el resultado debe ser importante.
Por sí mismo, el STOP proporciona una buena medida de evidencia con respecto a un modelo o hipótesis.

No quisiéramos desafiar a una autoridad, ¿verdad? Los investigadores y los tomadores de decisiones reconocerán que STOP proporciona toda la información que necesitan saber. Por estas razones, el análisis de datos puede terminar con STOP; no hay necesidad de enfoques alternativos, como valores p, aprendizaje automático o astrología.

Otros enfoques

Algunos estadísticos prefieren los llamados métodos "bayesianos", en los que un oscuro teorema publicado póstumamente por un clérigo del siglo XVIII se aplica sin pensar para resolver cada problema. Sus defensores más notables admiten libremente que estos métodos son "subjetivos". Si vamos a utilizar métodos subjetivos, entonces, obviamente, cuanto más autoritario y conocedor sea el tomador de decisiones, mejor será el resultado. De este modo, la PARADA emerge como el límite lógico de todos los métodos de Bayes. ¿Por qué hacer el esfuerzo de hacer esos terribles cálculos y dedicar tanto tiempo a la computadora, cuando puedes mostrar los datos al responsable y preguntarle cuál es su opinión? Fin de la historia.

Recientemente ha surgido otra comunidad para desafiar el sacerdocio de los estadísticos. Se llaman a sí mismos "aprendices de máquinas" y "científicos de datos", pero en realidad son solo hackers que buscan un estatus superior. Es la posición oficial de ASS que estos tipos deberían formar su propia organización profesional si quieren que la gente los tome en serio.

La pregunta

¿Es esta la respuesta a los problemas que el ASA identificó con valores p y pruebas de hipótesis nulas? ¿Puede realmente unir los paradigmas bayesiano y frequentista (como se afirma implícitamente en la respuesta)?

hypothesis-testing statistical-significance p-value

— whuber
fuente

"Donald Trump para el juez supremo STOP ASS: ¡haga que las estadísticas vuelvan a ser excelentes!"

— Alex R.

Claramente, STOP es un procedimiento subóptimo. Me sorprende que esto haya escapado de una organización de estudiosos tan estimada como la ASS. A saber, qué perder el tiempo mirando los datos en absoluto ? Simplemente da tu respuesta sí / no. Esta metodología ya está en uso con gran efecto. Abundan los estudios de casos, particularmente en los Estados Unidos durante años divisibles por 4.

— cardenal

Creo que las empresas también podrían beneficiarse enormemente de la adopción de estos métodos, ya que ya no tendrían que asumir el alto costo de contratar personas para analizar sus datos.

— dsaxton

@henry ¿Como si la etiqueta [1 de abril] no nos dijera eso?

— Glen_b

@ Henry ¿En serio? ¿Puede mostrarnos alguna organización falsa que obtenga más de un cuarto de millón de visitas cuando busque su nombre en Google?

— whuber

Respuestas:

He estado abogando por mi nuevo enfoque para la toma de decisiones estadísticas llamado RADD: R oll A D amn D ie. También aborda todos los puntos clave.

1) RADD puede indicar qué tan compatibles son los datos con un modelo estadístico especificado.

Si saca un número más alto, ¡claramente la evidencia está más a favor de su modelo! Un beneficio adicional es que, si deseamos aún más confianza, podemos lanzar un dado con más lados. ¡Incluso puedes encontrar 100 dados de lados si buscas lo suficiente!

2) RADD puede decidir si una hipótesis es verdadera o no.

Solo tienes que tirar un dado de 2 lados, es decir, lanzar una moneda.

3) RADD puede usarse para tomar decisiones comerciales o políticas

¡Consiga a un grupo de formuladores de políticas en una habitación y haga que todos tiren dados! Las mayores victorias!

4) RADD es transparente.

El resultado se puede registrar, y el dado en sí se puede conservar para futuras investigaciones *

5) RADD mide la importancia del resultado.

Obviamente, rodar más alto significa que ha ocurrido un evento muy importante.

6) RADD proporciona una buena medida de evidencia.

¿No dijimos que los rollos más altos son mejores?

Entonces, no, STOP no es la respuesta. La respuesta es RADD.

— Matthew Drury
fuente

Sin olvidar, puede garantizar el control de errores tipo I (en cualquier nivel deseado dado un dado lo suficientemente cara), por ejemplo, al rechazar una hipótesis nula cuando aparece uno de los 5 lados con el mayor número de dados de 100 lados para lograr una tasa de error de tipo I del 5%.

— Björn

Olvidaste mencionar poliedros platónicos geniales y algunos poliedros no platónicos geniales .

— Alexis

$p$ -valores y otros métodos frecuentistas o bayesianos. Desde la perspectiva empresarial, STOP proporciona respuestas simples y definitivas, lo que lo hace más confiable que los métodos "probabilísticos" inciertos. Además, en la gran mayoría de los casos es más sencillo de implementar y más fácil de adaptar a la realidad cambiante que otros métodos. Las decisiones Sí / No son más convincentes para la gerencia media y superior. Los "informes STOP" en la mayoría de los casos son más cortos y fáciles de leer que los basados en datos. Además, la adopción de este método le permite a su empleador reducir los costos en científicos de datos y licencias SAS. Diría que el único problema con STOP es que es más difícil hacer una presentación de PowerPoint que presente los resultados de STOP, pero este es un campo en desarrollo dinámico, por lo que en el futuro se pueden proponer mejores métodos de visualización.

— Tim
fuente

Una vez que las diapositivas de PowerPoint con la conclusión han sido informadas, es demasiado tarde para cambiarla, por lo que hay dos opciones, hacer que el análisis se ajuste a la conclusión o no molestarse en hacer el análisis.

— Mark L. Stone

@ MarkL.Stone ¡Seguro! Personalmente, me gusta la idea de hacer gráficos para la presentación antes de ver los datos, la idea se basa en el pensamiento bayesiano y los llamo gráficos a priori :) Creo que este enfoque apareció por primera vez impreso aquí: dilbert.com/strip/ 2008-05-08

— Tim

Este excelente complemento al debate sobre el valor p, interesante pero también algo rancio en mi opinión, me recuerda un artículo único publicado hace algunos años en la edición navideña del British Medical Journal (BMJ), que cada Navidad publica una investigación real pero divertida artículos. En particular, este trabajo de Isaacs y Fitzgerald destacó siete alternativas clave a la medicina basada en evidencia (es decir, la práctica de la medicina basada en evidencia clínica y estadística real):

Medicina basada en la eminencia
Medicina basada en vehemencia
Medicina basada en elocuencia
Medicina basada en la providencia
Medicina basada en la diferencia
Medicina basada en el nerviosismo
Medicina basada en la confianza

Lo más interesante es que debe mirar las columnas que resaltan los dispositivos de medición y las unidades de medida para los elementos anteriores (por ejemplo, audiómetro y decibelios para la medicina basada en vehemencia).

— revs Giuseppe Biondi-Zoccai
fuente

+1. Gracias por una espléndida contribución, perfectamente en el espíritu de la pregunta. (1) Solo para aclarar: ¿es el debate sobre el valor p que encuentra "rancio" o simplemente esta pregunta? (2) ¿Sabría dónde encontrar la referencia (6), "J Salarios exponenciales"? Estoy seguro de que tendría muchos lectores ávidos si fuera mejor conocido.

— whuber

(1) Su contribución es 'certificada fresca' (para citar rottentomatoes.com). Por el contrario, encuentro un tanto rancio este énfasis en las limitaciones de los valores de p. En una era de aprendizaje automático, big data y escasa alfabetización científica entre el público, la postura de ASA puede parecer un poco masoquista. (2) Creo que encontrará ese artículo en la misma revista donde publicaron el ensayo aleatorio recomendado en esta otra pieza navideña de BMJ: bmj.com/content/327/7429/1459 .

— Joe_74

Siempre olvido, ¿es la medicina basada en la confianza la que utiliza la inferencia basada en Dunning-Kruger?

— Alexis