Un diálogo entre un maestro y un estudiante reflexivo
Humildemente presentado en la creencia de que hasta ahora no se han usado suficientes crayones en este hilo. Una breve sinopsis ilustrada aparece al final.
Estudiante : ¿Qué significa un valor p? Mucha gente parece estar de acuerdo en que es la posibilidad de que "veamos un promedio de muestra mayor o igual que" un estadístico o es "la probabilidad de observar este resultado ... dado que la hipótesis nula es verdadera" o donde "el estadístico de mi muestra cayó en una distribución [simulada] " e incluso " la probabilidad de observar una estadística de prueba al menos tan grande como la calculada suponiendo que la hipótesis nula es verdadera " .
Maestro : Bien entendido, todas esas declaraciones son correctas en muchas circunstancias.
Estudiante : No veo cómo la mayoría de ellos son relevantes. ¿No nos enseñó que tenemos que establecer una hipótesis nula y una hipótesis alternativa ? ¿Cómo están involucrados en estas ideas de "mayor o igual que" o "al menos tan grande" o el muy popular "más extremo"?H AH0HA
Maestro : Debido a que puede parecer complicado en general, ¿nos ayudaría explorar un ejemplo concreto?
Estudiante : Claro. Pero si puede, hágalo realista pero simple.
Maestro : Esta teoría de la prueba de hipótesis comenzó históricamente con la necesidad de los astrónomos de analizar los errores de observación, entonces, ¿qué tal si comenzamos allí? Estaba revisando algunos documentos antiguos un día en que un científico describió sus esfuerzos para reducir el error de medición en su aparato. Había tomado muchas medidas de una estrella en una posición conocida y registró sus desplazamientos delante o detrás de esa posición. Para visualizar esos desplazamientos, dibujó un histograma que, cuando se suavizó un poco, se parecía a este.
Estudiante : Recuerdo cómo funcionan los histogramas: el eje vertical está etiquetado como "Densidad" para recordarme que las frecuencias relativas de las mediciones están representadas por área en lugar de altura.
Maestro : Eso es correcto. Un valor "inusual" o "extremo" se ubicaría en una región con un área bastante pequeña. Aquí hay un crayón. ¿Crees que podrías colorear en una región cuya área es solo una décima parte del total?
Estudiante : Claro; eso es fácil. [Colores en la figura.]
Maestra : Muy bien! Eso me parece aproximadamente el 10% del área. Sin embargo, recuerde que las únicas áreas en el histograma que importan son aquellas entre líneas verticales: representan la posibilidad o probabilidad de que el desplazamiento se ubique entre esas líneas en el eje horizontal. Eso significa que necesita colorear todo el camino hasta el fondo y eso sería más de la mitad del área, ¿no?
Estudiante : Oh, ya veo. Déjame intentar de nuevo. Voy a querer colorear donde la curva es realmente baja, ¿no? Es más bajo en los dos extremos. ¿Tengo que colorear solo en un área o estaría bien dividirlo en varias partes?
Maestro : Usar varias partes es una idea inteligente. ¿Dónde estarían ellos?
Estudiante (señalando): Aquí y aquí. Debido a que este crayón no es muy afilado, usé un bolígrafo para mostrarle las líneas que estoy usando.
Maestra : ¡Muy bien! Déjame contarte el resto de la historia. El científico hizo algunas mejoras en su dispositivo y luego tomó medidas adicionales. Escribió que el desplazamiento del primero fue de solo , lo que pensó que era una buena señal, pero como era un científico cuidadoso, procedió a tomar más medidas como un control. Desafortunadamente, esas otras medidas se pierden, el manuscrito se rompe en este punto, y todo lo que tenemos es ese número único, .0.10.10.1
Estudiante : Eso es muy malo. Pero, ¿no es mucho mejor que la amplia distribución de desplazamientos en su figura?
Maestro : Esa es la pregunta que me gustaría que respondieras. Para empezar, ¿qué deberíamos plantear como ?H0
Estudiante : Bueno, un escéptico se preguntaría si las mejoras realizadas en el dispositivo tuvieron algún efecto. La carga de la prueba recae en el científico: le gustaría mostrar que el escéptico está equivocado. Eso me hace pensar que la hipótesis nula es algo mala para el científico: dice que todas las nuevas mediciones, incluido el valor de que conocemos, deberían comportarse como se describe en el primer histograma. O tal vez incluso peor que eso: podrían estar aún más dispersos.0.1
Maestro : Continúa, te va bien.
Estudiante : Y entonces la alternativa es que las nuevas medidas estarían menos extendidas, ¿verdad?
Maestra : Muy bien! ¿Podrías dibujarme una imagen de cómo se vería un histograma con menos difusión? Aquí hay otra copia del primer histograma; puedes dibujar encima como referencia.
Estudiante (dibujo): estoy usando un bolígrafo para delinear el nuevo histograma y coloreo el área debajo de él. He hecho que la mayor parte de la curva esté cerca de cero en el eje horizontal y que la mayor parte de su área esté cerca de un valor (horizontal) de cero: eso es lo que significa estar menos extendido o más preciso.
Maestro : Ese es un buen comienzo. Pero recuerde que un histograma que muestre posibilidades debe tener un área total de . El área total del primer histograma, por lo tanto, es . ¿Cuánta área hay dentro de su nuevo histograma?111
Estudiante : menos de la mitad, creo. Veo que es un problema, pero no sé cómo solucionarlo. ¿Qué tengo que hacer?
Maestro : El truco es hacer que el nuevo histograma sea más alto que el anterior para que su área total sea . Aquí, te mostraré una versión generada por computadora para ilustrar.1
Estudiante : Ya veo: lo estiró verticalmente para que su forma realmente no cambiara, pero ahora el área roja y el área gris (incluida la parte debajo del rojo) son las mismas cantidades.
Maestra : bien. Está viendo una imagen de la hipótesis nula (en azul, extendida) y parte de la hipótesis alternativa (en rojo, con menos extensión).
Estudiante : ¿Qué quieres decir con "parte" de la alternativa? ¿No es solo la hipótesis alternativa?
Maestro : Los estadísticos y la gramática no parecen mezclarse. :-) En serio, lo que quieren decir con una "hipótesis" generalmente es un gran conjunto de posibilidades. Aquí, la alternativa (como dijiste tan bien antes) es que las mediciones están "menos extendidas" que antes. Pero cuanto menos ? Hay muchas posibilidades Aquí, déjame mostrarte otro. Lo dibujé con rayas amarillas. Está entre los dos anteriores.
Estudiante : Ya veo: puede tener diferentes cantidades de propagación, pero no sabe de antemano cuánto será realmente la propagación. Pero, ¿por qué hiciste el sombreado divertido en esta imagen?
Maestro : Quería resaltar dónde y cómo difieren los histogramas. Los sombreé en gris donde los histogramas alternativos son más bajos que los nulos y en rojo donde las alternativas son más altas .
Estudiante : ¿Por qué eso importaría?
Maestro : ¿Recuerdas cómo coloreaste el primer histograma en ambas colas? [Mirando a través de los papeles.] Ah, aquí está. Vamos a colorear esta imagen de la misma manera.
Estudiante : Recuerdo: esos son los valores extremos. Encontré los lugares donde la densidad nula era lo más pequeña posible y coloreé el 10% del área allí.
Maestro : Cuéntame sobre las alternativas en esas áreas extremas.
Estudiante : Es difícil de ver, porque el crayón lo cubrió, pero parece que casi no hay posibilidad de que haya otra alternativa en las áreas que coloreé. Sus histogramas están justo debajo del eje de valores y no hay espacio para ningún área debajo de ellos.
Maestro : Continuemos con ese pensamiento. Si te dijera, hipotéticamente, que una medida tiene un desplazamiento de , y te pido que elijas de cuál de estos tres histogramas es el que probablemente proviene, ¿cuál sería?−2
Estudiante : El primero, el azul. Es el más extendido y es el único donde parece tener alguna posibilidad de ocurrir.−2
Maestro : ¿Y qué hay del valor de en el manuscrito?0.1
Estudiante : Hmmm ... esa es una historia diferente. Los tres histogramas están bastante por encima del suelo en .0.1
Maestra : Ok, lo suficientemente justo. Pero supongamos que le dije que el valor estaba en algún lugar cerca de , como entre y . ¿Eso te ayuda a leer algunas probabilidades de estos gráficos?0.100.2
Estudiante : Claro, porque puedo usar áreas. Solo tengo que estimar las áreas debajo de cada curva entre y . Pero eso parece bastante difícil.00.2
Maestro : No necesitas ir tan lejos. ¿Puedes decir qué área es la más grande?
Estudiante : El que está debajo de la curva más alta, por supuesto. Las tres áreas tienen la misma base, por lo que cuanto más alta es la curva, más área hay debajo de ella y la base. Eso significa que el histograma más alto, el que dibujé, con guiones rojos, es el más probable para un desplazamiento de . Creo que veo a dónde vas con esto, pero estoy un poco preocupado: ¿no tengo que mirar todos los histogramas para todas las alternativas, no solo las que se muestran aquí? ¿Cómo podría hacer eso?0.1
Maestro : Eres bueno para elegir patrones, así que dime: a medida que el aparato de medición se hace cada vez más preciso, ¿qué sucede con su histograma?
Estudiante : Se vuelve más angosto, oh, y también tiene que ser más alto, por lo que su área total permanece igual. Eso hace que sea bastante difícil comparar los histogramas. Las alternativas son todas más altas que la nula derecha en , eso es obvio. ¡Pero a otros valores, a veces las alternativas son más altas y otras más bajas! Por ejemplo, [apuntando a un valor cercano a ], aquí mi histograma rojo es el más bajo, el histograma amarillo es el más alto y el histograma nulo original está entre ellos. Pero a la derecha, el nulo es el más alto.03/4
Maestro : En general, comparar histogramas es un negocio complicado. Para ayudarnos a hacerlo, le he pedido a la computadora que haga otro diagrama: ha dividido cada una de las alturas alternativas de histograma (o "densidades") por la altura nula del histograma, creando valores conocidos como "razones de probabilidad". Como resultado, un valor mayor que significa que la alternativa es más probable, mientras que un valor menor que significa que la alternativa es menos probable. Ha dibujado una alternativa más: está más extendido que los otros dos, pero aún menos extendido que el aparato original.11
Maestro (continuando): ¿Podría mostrarme dónde las alternativas tienden a ser más probables que las nulas?
Estudiante (coloración): Aquí en el medio, obviamente. Y debido a que estos ya no son histogramas, supongo que deberíamos mirar las alturas en lugar de las áreas, por lo que solo estoy marcando un rango de valores en el eje horizontal. Pero, ¿cómo sé cuánto del medio colorear? ¿Dónde dejo de colorear?
Maestro : No hay una regla firme. Todo depende de cómo planeemos usar nuestras conclusiones y cuán feroces sean los escépticos. Pero siéntese y piense en lo que ha logrado: ahora se da cuenta de que los resultados con grandes índices de probabilidad son evidencia de la alternativa y los resultados con pequeños índices de probabilidad son evidencia contra la alternativa. Lo que le pediré que haga es colorear en un área que, en la medida de lo posible, tiene una pequeña posibilidad de ocurrir bajo la hipótesis nula y una probabilidad relativamente grande de ocurrir bajo las alternativas. Volviendo al primer diagrama que coloreó, al comienzo de nuestra conversación, coloreó las dos colas del nulo porque eran "extremas". ¿Seguirían haciendo un buen trabajo?
Estudiante : No lo creo. Aunque eran bastante extremos y raros bajo la hipótesis nula, son prácticamente imposibles para cualquiera de las alternativas. Si mi nueva medición fuera, digamos , creo que me pondría del lado del escéptico y negaría que hubiera ocurrido alguna mejora, a pesar de que fue un resultado inusual en cualquier caso. Quiero cambiar ese color. Aquí, déjame tener otro crayón.3.03.0
Maestro : ¿Qué representa eso?
Estudiante : Comenzamos con usted pidiéndome que dibujara solo el 10% del área bajo el histograma original, el que describe el nulo. Así que ahora dibujé en el 10% del área donde las alternativas parecen más probables. Creo que cuando hay una nueva medición en esa área, nos dice que debemos creer la alternativa.
Maestro : ¿Y cómo debe reaccionar el escéptico a eso?
Estudiante : Un escéptico nunca tiene que admitir que está equivocado, ¿verdad? Pero creo que su fe debería estar un poco sacudida. Después de todo, lo organizamos de modo que, aunque una medición podría estar dentro del área que acabo de dibujar, solo tiene un 10% de posibilidades de estar allí cuando el valor nulo es verdadero. Y tiene una mayor probabilidad de estar allí cuando la alternativa es verdadera. Simplemente no puedo decirte qué tan grande es esa posibilidad, porque dependería de cuánto haya mejorado el científico el aparato. Solo sé que es más grande. Entonces la evidencia estaría en contra del escéptico.
Maestra : Muy bien. ¿Te importaría resumir tu comprensión para que tengamos perfectamente claro lo que has aprendido?
Estudiante : Aprendí que para comparar hipótesis alternativas con hipótesis nulas, debemos comparar sus histogramas. Dividimos las densidades de las alternativas por la densidad de la nula: eso es lo que usted llamó la "razón de probabilidad". Para hacer una buena prueba, debería elegir un pequeño número como 10% o lo que sea suficiente para sacudir a un escéptico. Entonces debería encontrar valores donde la razón de probabilidad sea lo más alta posible y colorearlos hasta que se haya coloreado el 10% (o lo que sea).
Maestro : ¿Y cómo usarías ese color?
Estudiante : Como me recordó anteriormente, el color debe estar entre líneas verticales. Los valores (en el eje horizontal) que se encuentran debajo del color son evidencia contra la hipótesis nula. Otros valores: bueno, es difícil decir lo que podrían significar sin echar un vistazo más detallado a todos los histogramas involucrados.
Maestro : Volviendo al valor de en el manuscrito, ¿qué concluiría?0.1
Estudiante : Eso está dentro del área que coloreé por última vez, así que creo que el científico probablemente tenía razón y el aparato realmente mejoró.
Maestro : Una última cosa. Su conclusión se basó en elegir el 10% como criterio o "tamaño" de la prueba. A muchas personas les gusta usar el 5% en su lugar. Algunos prefieren el 1%. ¿Qué les podrías decir?
Estudiante : ¡No podría hacer todas esas pruebas a la vez! Bueno, tal vez podría de alguna manera. Puedo ver que no importa el tamaño de la prueba, debo comenzar a colorear desde , que es en este sentido el valor "más extremo", y trabajar hacia afuera en ambas direcciones desde allí. Si tuviera que parar justo en valor realmente observado, creo que habría coloreado un área en algún lugar entre y , digamos . El 5% y el 1% de las personas podrían decir de inmediato que coloreé demasiado: si quisieran colorear solo el 5% o el 1%, podrían hacerlo, pero no llegarían a00.10.050.10.080.1. No llegarían a la misma conclusión que yo: dirían que no hay pruebas suficientes de que realmente haya ocurrido un cambio.
Maestro : Me acabas de decir qué significan realmente todas esas citas al principio . Debería ser obvio a partir de este ejemplo que no pueden pretender "más extremos" o "mayores o iguales" o "al menos tan grandes" en el sentido de tener un valor mayor o incluso tener un valor donde la densidad nula es pequeña. Realmente significan estas cosas en el sentido de las grandes razones de probabilidad que usted ha descrito. Por cierto, el número alrededor de que calculó se llama "valor p". Solo puede entenderse correctamente de la manera que ha descrito: con respecto a un análisis de alturas relativas de histograma, las razones de probabilidad.0.08
Estudiante : Gracias No estoy seguro de comprender completamente todo esto todavía, pero me has dado mucho en qué pensar.
Maestro : Si desea ir más allá, eche un vistazo al Lema de Neyman-Pearson . Probablemente esté listo para entenderlo ahora.
Sinopsis
Muchas pruebas que se basan en una estadística única como la del cuadro de diálogo lo llamarán " " o " ". Estas son formas de insinuar cómo se ve el histograma nulo, pero son solo sugerencias: lo que llamamos este número realmente no importa. La construcción resumida por el alumno, como se ilustra aquí, muestra cómo se relaciona con el valor p. El valor p es el tamaño de prueba más pequeño que causaría que una observación de conduzca a un rechazo de la hipótesis nula.ztt=0.1
En esta figura, que se amplía para mostrar detalles, la hipótesis nula se traza en azul sólido y dos alternativas típicas se trazan con líneas discontinuas. La región donde esas alternativas tienden a ser mucho más grandes que la nula está sombreada. El sombreado comienza donde las probabilidades relativas de las alternativas son mayores (en ). El sombreado se detiene cuando la observación se alcanza. El valor p es el área de la región sombreada bajo el histograma nulo: es la posibilidad, suponiendo que el nulo sea verdadero, de observar un resultado cuyas razones de probabilidad tienden a ser grandes independientemente de qué alternativa sea verdadera. En particular, esta construcción depende íntimamente de la hipótesis alternativa. No puede llevarse a cabo sin especificar las posibles alternativas.0t=0.1