Benjamini y Hochberg definen la tasa de falsos descubrimientos de la misma manera que yo, como la fracción de las pruebas positivas que son falsos positivos. Entonces, si usa su procedimiento para comparaciones múltiples, controlará FDR correctamente. Sin embargo, vale la pena señalar que hay muchas variantes en el método BH. Los seminarios de Benjamini en Berkeley están en Youtube, y vale la pena verlos:
No estoy seguro de por qué @amoeba dice "Esto está formulado con demasiada fuerza y en realidad puede ser engañoso". Me interesaría saber por qué piensa eso. El argumento más persuasivo proviene de las pruebas t simuladas (sección 6). Eso imita lo que casi todo el mundo hace en la práctica y muestra que si observa P cerca de 0.047 y afirma haber hecho un descubrimiento, se equivocará al menos el 26% del tiempo. ¿Qué puede ir mal?
Por supuesto, no debería describir esto como mínimo. Es lo que obtienes si asumes que hay un 50% de posibilidades de que haya un efecto real. Por supuesto, si asume que la mayoría de sus hipótesis son correctas de antemano, puede obtener un FDR inferior al 26%, pero ¿puede imaginar la hilaridad que saludaría una afirmación de que había hecho un descubrimiento sobre la base de la suposición? que estaba 90% seguro de antemano de que su conclusión sería cierta. 26% es el FDR mínimo dado que no es una base razonable para la inferencia asumir una probabilidad previa mayor que 0.5.
Dado que las corazonadas con frecuencia no se ponen de pie cuando se prueban, bien podría ser que solo haya un 10% de posibilidades de que cualquier hipótesis en particular sea cierta, y en ese caso el FDR sería un 76% desastroso.
Es cierto que todo esto depende de la hipótesis nula de que hay una diferencia cero (el llamado punto nulo). Otras opciones pueden dar resultados diferentes. Pero el punto nulo es lo que casi todos usan en la vida real (aunque es posible que no se den cuenta). Además, el punto nulo me parece algo completamente apropiado para usar. A veces se objeta que las verdaderas diferencias nunca son exactamente cero. Estoy en desacuerdo. Queremos saber si nuestros resultados no son distinguibles del caso en que ambos grupos reciben tratamientos idénticos, por lo que la verdadera diferencia es exactamente cero. Si decidimos que nuestros datos no son compatibles con esa vista, continuaremos estimando el tamaño del efecto. y en ese punto hacemos un juicio separado sobre si el efecto, aunque real, es lo suficientemente grande como para ser importante en la práctica.El blog de Deborah Mayo .
@amoeba Gracias por tu respuesta.
Lo que muestra la discusión en el blog de Mayo es principalmente que Mayo no está de acuerdo conmigo, aunque no ha dejado claro por qué, al menos para mí). Stephen Senn señala correctamente que puede obtener una respuesta diferente si postula una distribución anterior diferente. Eso me parece interesante solo para los bayesianos subjetivos.
Ciertamente es irrelevante para la práctica diaria que siempre asume un punto nulo. Y como expliqué, eso me parece algo perfectamente sensato.
Muchos estadísticos profesionales han llegado a conclusiones muy parecidas a las mías. Prueba Sellke & Berger y Valen Johnson (referencias en mi artículo). No hay nada muy controvertido (o muy original) sobre mis afirmaciones.
Su otro punto, sobre asumir un 0.5 anterior, no me parece una suposición en absoluto. Como expliqué anteriormente, cualquier cosa por encima de 0.5 sería inaceptable en la práctica. Y cualquier cosa por debajo de 0.5 hace que la tasa de falsos descubrimientos sea aún más alta (por ejemplo, 76% si anterior es 0.1). Por lo tanto, es perfectamente razonable decir que 26% es la tasa mínima de descubrimiento falso que puede esperar si observa P = 0.047 en un solo experimento.
He estado pensando más sobre esta pregunta. Mi definición de FDR es la misma que la de Benjamini, la fracción de pruebas positivas que son falsas. Pero se aplica a un problema bastante diferente, la interpretación de una sola prueba. En retrospectiva, podría haber sido mejor si hubiera elegido un término diferente.
En el caso de una sola prueba, B&H deja el valor P sin cambios, por lo que no dice nada sobre la tasa de descubrimiento falso en el sentido de que uso el término.
es, por supuesto, tienes razón. Benjamini & Hochberg, y otras personas que trabajan en comparaciones múltiples, solo apuntan a corregir la tasa de error tipo 1. Entonces terminan con un valor de P "correcto". Está sujeto a los mismos problemas que cualquier otro valor de P. En mi último artículo, cambié el nombre de FDR a False Positive Risk (FPR) en un intento por evitar este malentendido.
También hemos escrito una aplicación web para hacer algunos de los cálculos (después de notar que pocas personas descargan los scripts R que proporcionamos). Está en https://davidcolquhoun.shinyapps.io/3-calcs-final/ Todas las opiniones al respecto son bienvenidas (lea primero la pestaña Notas).
PD: La calculadora web ahora tiene una nueva (permanente, espero) en http://fpr-calc.ucl.ac.uk/
Shiny.io es fácil de usar, pero muy costosa si alguien realmente usa la aplicación :-(
Regresé a esta discusión, ahora que mi segundo artículo sobre el tema está a punto de aparecer en Royal Society Open Science. Está en https://www.biorxiv.org/content/early/2017/08/07/144337
Me doy cuenta de que el error más grande que cometí en el primer artículo fue utilizar el término "tasa de descubrimiento falso (FDR)". En el nuevo artículo, hago más explícito que no estoy diciendo nada sobre el problema de las comparaciones múltiples. Solo trato la cuestión de cómo interpretar el valor P que se observa en una única prueba imparcial.
En la última versión, me refiero a la probabilidad de que el resultado sea el riesgo falso positivo (FPR) en lugar de FDR, con la esperanza de reducir la confusión. También defiendo el enfoque bayesiano inverso: especifique la probabilidad previa que sería necesaria para garantizar un FPR de, digamos, 5%. Si observa P = 0.05, eso viene a 0.87. En otras palabras, tendría que estar casi seguro (87%) de que hubo un efecto real antes de hacer el experimento para lograr un FPR del 5% (que es lo que la mayoría de la gente todavía cree, erróneamente, p = 0.05 significa).