¿Origen del umbral "5 " para aceptar evidencia en física de partículas?


33

Los informes noticiosos dicen que el CERN anunciará mañana que el bosón de Higgs ha sido detectado experimentalmente con evidencia 5 . De acuerdo con ese artículo:σ

5 equivale a un 99.99994% de posibilidades de que los datos que ven los detectores CMS y ATLAS no sean solo ruido aleatorio, y un 0.00006% de posibilidades de que hayan sido engañados; 5 es la certeza necesaria para que algo se etiquete oficialmente como un "descubrimiento" científico.σσ

Esto no es súper riguroso, pero parece decir que los físicos usan la metodología estadística estándar de "prueba de hipótesis", estableciendo en , que corresponde a (dos colas). ¿O hay algún otro significado?α0.0000006z=5

En gran parte de la ciencia, por supuesto, establecer alfa a 0.05 se realiza de forma rutinaria. Esto sería equivalente a la evidencia "two- ", aunque nunca he oído que se llame así. ¿Hay otros campos (además de la física de partículas) donde una definición mucho más estricta de alfa es estándar? ¿Alguien conoce una referencia de cómo la regla de las cinco fue aceptada por la física de partículas?σσ

Actualización: estoy haciendo esta pregunta por una simple razón. Mi libro Bioestadística intuitiva (como la mayoría de los libros de estadísticas) tiene una sección que explica cuán arbitraria es la regla habitual "P <0.05". Me gustaría agregar este ejemplo de un campo científico donde se considera necesario un valor mucho más pequeño de . Pero si el ejemplo es realmente más complicado, con el uso de métodos bayesianos (como sugieren algunos comentarios a continuación), entonces no sería del todo adecuado o requeriría mucha más explicación.α


2
¿Has oído hablar de "Six Sigma" ?
Daniel R Hicks

En el control de calidad, se considera a seis sigma como Daniel sugiere con su pregunta / comentario. Todas estas probabilidades de rechazo suponen un muestreo de una distribución normal y las probabilidades de cola podrían ser mayores para otras distribuciones. Usar tales extremos como 5 o 6 sigma solo puede ser útil en circunstancias especiales. En la práctica, el tamaño de la muestra y la variabilidad en los datos hacen inferencia más allá de 2 o 3 sigma inviable.
Michael R. Chernick

1
Básicamente, la mayoría de los físicos de partículas se sienten más cómodos con las ideas bayesianas al calcular los parámetros, por lo que en realidad están " seguros, dados los datos y los antecedentes, de que la señal del Higgs no es cero", lo que ciertamente es diferente de decir que solo hay "0.01 por ciento de posibilidades de que la señal sea ruido aleatorio" (¡también hay fluctuaciones no aleatorias que surgen de la sistemática!). [1]: physics.stackexchange.com/questions/8752/…X%
Néstor

3
@ Néstor: Estoy viendo la transmisión en vivo de la conferencia de prensa de Higgs ahora, y nadie menciona las interpretaciones bayesianas. Se utilizan los "valores p" y el "nivel de significancia", pero solo Bayesian, mal informado de manera horrible, los interpretaría como probabilidades de que la señal sea ruido aleatorio. Creo que el texto en la cita en la pregunta del OP simplemente es una interpretación errónea de lo que realmente es un valor p.
MånsT

1
Por cierto, hice una publicación en mi blog sobre este tema: randomastronomy.wordpress.com .
Néstor

Respuestas:


13

En la mayoría de las aplicaciones de estadísticas, existe esa vieja historia sobre "todos los modelos están equivocados, algunos son útiles". Siendo este el caso, solo esperaríamos que un modelo funcione en un nivel dado, ya que estamos describiendo un proceso increíblemente complicado usando un modelo simple.

La física es muy diferente, por lo que la intuición desarrollada a partir de modelos estadísticos no es tan apropiada. En Física, en particular la física de partículas que trata directamente con las leyes físicas fundamentales, se supone que el modelo es realmente una descripción exacta de la realidad. Cualquier desviación de lo que predice el modelo debe explicarse completamente por el ruido experimental, no una limitación del modelo. Esto significa que si el modelo es bueno y correcto y el aparato experimental entendió que la significancia estadística debería ser muy alta, de ahí la barra alta que se establece.

La otra razón es histórica, la comunidad de física de partículas ha sido quemada en el pasado por 'descubrimientos' en niveles de significancia más bajos que se retraen más tarde, por lo tanto, ahora son generalmente más cautelosos.


1
¿Está de acuerdo en que la física utiliza pruebas de hipótesis estadísticas estándar con un alfa muy bajo (en este caso, de todos modos). ¿O utilizan algún tipo de enfoque bayesiano como dijo Nestor en un comentario anterior?
Harvey Motulsky

2
Según tengo entendido al hablar con algunas de las personas que conozco que trabajan en ATLAS, el análisis es muy bayesiano. Sin embargo, son tipos de nivel inferior (es decir, los que realmente hacen el trabajo). No me sorprendería si algunas de las cabezas parlantes de la cadena tuvieran una comprensión más pobre de la interpretación. Dicho esto, la presentación de los resultados del LHC fue bastante pobre, y en realidad no parecía muy bayesiana, como han señalado otros.
Bogdanovist

2
Siempre he pensado que la física de partículas en particular también se ocupó de miles de millones de eventos, por lo que tienes que poner el listón muy alto.
Wayne

11

Historia y origen

Según Robert D Cousins y Tommaso Dorigo , el origen del origen del umbral reside en el trabajo de física de partículas temprano de los años 60 cuando se investigaron numerosos histogramas de experimentos de dispersión y se buscaron picos / protuberancias eso podría indicar alguna partícula recién descubierta. El umbral es una regla aproximada para tener en cuenta las comparaciones múltiples que se están realizando.125σ

Ambos autores se refieren a un artículo de 1968 de Rosenfeld , que abordaba la cuestión de si existen o no mesones y bariones, para los cuales se midieron varios efectos . El artículo respondió negativamente a la pregunta argumentando que el número de reclamos publicados corresponde al número de fluctuaciones esperado estadísticamente. Junto con varios cálculos que respaldan este argumento, el artículo promovió el uso del nivel :34σ5σ

Rosenfeld: "Antes de continuar con el estudio de espectros de masas lejanos donde se han reportado golpes en primero debemos decidir qué umbral de importancia para exigir en 1968. Quiero mostrarles que aunque los experimentadores probablemente deberían notar efectos , los teóricos y fenomenólogos harían mejor en esperar hasta que el efecto alcance ".(Kππ)3/2,(πρ)3σ>4σ

y más adelante en el documento (el énfasis es mío)

Rosenfeld: "Entonces, para repetir mi advertencia al comienzo de esta sección; estamos generando al menos 100 000 protuberancias potenciales por año, y deberíamos esperar varias fluctuaciones de y cientos de . ¿Cuáles son las implicaciones? Para el teórico o fenomenólogo, la moraleja es simple; espere efectos ".4σ3σ5σ

Tommaso parece ser cuidadoso al afirmar que comenzó con el artículo de Rosenfeld

Tommaso: "Sin embargo, debemos tener en cuenta que el artículo fue escrito en 1968, pero el criterio estricto de cinco desviaciones estándar para las afirmaciones de descubrimiento no se adoptó en los años setenta y ochenta. Por ejemplo, no se utilizó un criterio de cinco sigma por el descubrimiento de los bosones W y Z, que le valieron a Rubbia y Van der Meer el Premio Nobel de física en 1984. "

Pero en los años 80, el uso de se extendió. Por ejemplo, el astrónomo Steve Schneider menciona en 1989 que se está enseñando algo (enfatice el mío en la cita a continuación):5σ4

Schneider: "Con frecuencia, se citan 'niveles de confianza' del 95% o 99% para datos aparentemente discrepantes, pero esto equivale a solo dos o tres sigmas estadísticas. Me enseñaron a no creer nada menos que cinco sigma , lo que si usted piensa es un requisito absurdamente estricto, algo así como un nivel de confianza del 99.9999%. Pero, por supuesto, ese límite se usa porque el tamaño real de sigma casi nunca se conoce. Hay demasiadas variables libres en astronomía que podemos no controle o no sepa ".

Sin embargo, en el campo de la física de partículas, muchas publicaciones todavía se basaban en discrepancias de hasta finales de los 90. Esto solo cambió a a principios del siglo XXI. Probablemente se prescribe como una guía para publicaciones alrededor de 2003 (ver el prólogo en el libro de Franklin Shifting Standards )4σ5σ5

Franklin: en 2003, el criterio de 5 desviaciones estándar para la "observación de" parece haber estado en vigor

...

Un miembro de la colaboración de BaBar recuerda que, por esta época, los editores de Physical Review Letters emitieron el criterio de 5 sigma como una guía.


Uso moderno

Actualmente, el umbral es un estándar de libro de texto. Por ejemplo, aparece como un artículo estándar en physics.org o en algunos de los trabajos de Glen Cowan, como la sección de estadísticas de la Review of Particle Physics del grupo de datos de partículas (aunque con varias notas al margen críticas)5σ67

Glen Cowan: A menudo en HEP, el nivel de significación donde se dice que un efecto califica como descubrimiento esZ=5 , es decir, un efecto , que corresponde a un valor p de . Sin embargo, el grado real de creencia de que un nuevo proceso está presente dependerá en general de otros factores, como la plausibilidad de la hipótesis de la nueva señal y el grado en que puede describir los datos, la confianza en el modelo que condujo al valor p observado, y posibles correcciones para múltiples observaciones, de las cuales una se enfoca en el valor p más pequeño obtenido (el "efecto de buscar en otro lado").5σ2.87×107

El uso del nivel ahora se atribuye a 4 razones:5σ

  • La historia basada en la práctica encontró que es un buen umbral. (cosas exóticas parecen suceder al azar, incluso entre a , como recientemente el exceso de diphoton de 750 GeV )5σ3σ4σ

  • El efecto de buscar en otra parte (o las comparaciones múltiples ). Ya sea porque se prueban múltiples hipótesis o porque los experimentos se realizan muchas veces, las personas se ajustan a esto (más o menos) ajustando el límite a . Esto se relaciona con el argumento de la historia.5σ

  • Los efectos sistemáticos y la incertidumbre enσ menudo desconocen la incertidumbre del resultado del experimento. La se deriva, pero la derivación incluye suposiciones débiles, como la ausencia de efectos sistemáticos o la posibilidad de ignorarlos. Aumentar el umbral parece ser una forma de una especie de protección contra estos eventos. (Sin embargo, esto es un poco extraño. La calculada no tiene relación con el tamaño de los efectos sistemáticos y la lógica se rompe, un ejemplo es el "descubrimiento" de neutrinos superluminales que, según se informa, tiene un significado de ).σσ6σ

  • Las afirmaciones extraordinarias requieren evidencia extraordinaria Los resultados científicos se informan de manera frecuente, por ejemplo, utilizando intervalos de confianza o valores p. Pero, a menudo se interpretan de manera bayesiana. Seafirma que el niveltiene en cuenta esto.5σ

5σ8,912


Otros campos

Es interesante observar que muchos otros campos científicos no tienen umbrales similares o, de alguna manera, no abordan el problema. Me imagino que esto tiene un poco de sentido en el caso de experimentos con humanos en los que es muy costoso (o imposible) extender un experimento que dio una significación de .05 o .01.

1011


  1. Primos, RD (2017). La paradoja de Jeffreys-Lindley y los criterios de descubrimiento en física de alta energía. Synthese, 194 (2), 395-432. enlace arxiv

  2. Dorigo, T. (2013) Desmitificando el Criterio Five-Sigma, de science20.com 2019-03-07

  3. Rosenfeld, AH (1968). ¿Hay mesones o bariones lejanos? fuente web: beca

  4. Burbidge, G., Roberts, M., Schneider, S., Sharp, N. y Tifft, W. (1990, noviembre). Panel de discusión: problemas relacionados con Redshift. En la publicación de la Conferencia de la NASA (Vol. 3098, p. 462). enlace a fotocopia en harvard.edu

  5. Franklin, A. (2013). Estándares cambiantes: experimentos en física de partículas en el siglo XX. Prensa de la Universidad de Pittsburgh.

  6. ¿Qué significa el 5 sigma? de physics.org 2019-03-07

  7. Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Revisión de la física de partículas. Revisión física de partículas D, campos, gravitación y cosmología, 86 (1), 010001. (sección 36.2.2. Pruebas de significación, página 394, enlace aps.org )

  8. Lyons, L. (2013). Descubriendo el significado de 5 sigma. preimpresión arXiv arXiv: 1310.1284. enlace arxiv

  9. Lyons, L. (2014). Cuestiones estadísticas en búsquedas de nueva física. arXiv preprint enlace arxiv

  10. Baker, M. (2015). Más de la mitad de los estudios de psicología fallan en la prueba de reproducibilidad. Noticias de la naturaleza. de nature.com 2019-03-07

  11. Horton, R. (2015). Fuera de línea: ¿cuál es la medicina 5 sigma? The Lancet, 385 (9976), 1380. de thelancet.com 2019-03-07


4

Por una razón completamente diferente a la de la física, hay otros campos con alfa mucho más estrictos cuando realizan pruebas de hipótesis. La Epidemiología Genética se encuentra entre ellos, especialmente cuando usan "GWAS" (Genome-Wide Association Study) para observar varios marcadores genéticos de enfermedades.

Debido a que un estudio GWAS es un ejercicio masivo en pruebas de hipótesis múltiples, las técnicas de análisis más avanzadas se basan en alfa mucho más estrictas que 0.05. Es probable que otras técnicas de estudio de "detección de candidatos" que siguen a los estudios de genómica hagan lo mismo.


2
α

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.