¿Cómo explicar las pruebas de hipótesis para adolescentes en menos de 10 minutos?


18

Durante más de un año, he estado dando una clase de una hora de "gusto por las estadísticas". Cada vez que vengo un grupo diferente de niños y les doy la clase.

El tema de la clase es que realizamos un experimento en el que 10 niños (a quienes les gusta beber coca-cola) reciben dos tazas (sin marcar), una con coca-cola y otra con pepsi. Se les pide a los niños que detecten, según el gusto y el olfato, qué taza contiene la bebida de coca-cola.

Luego necesito explicarles cómo decidir si los niños están adivinando, o si ellos (o al menos, lo suficiente) realmente tienen la capacidad de saborear la diferencia. ¿Son 10 de 10 éxitos lo suficientemente buenos? ¿Qué pasa con 7 de cada 10?

Incluso después de dar esta clase decenas de veces (en diferentes variaciones), sigo sin sentir que sé cómo transmitir el concepto de una manera que la mayoría de la clase lo entienda.

Si tiene alguna idea sobre cómo se puede explicar el concepto de prueba de hipótesis, hipótesis nula, hipótesis alternativa, regiones de rechazo, etc. de una manera simple (!) E intuitiva , me encantaría saber cómo.


1
A veces, pensar en "por qué" ayuda a comprender mejor "cómo", para que pueda consultar stats.stackexchange.com/questions/6966/…
Tim

55
(+1) ¡Supongo que depende de cuál sea tu definición de 10 minutos !
cardenal

1
Hace unas semanas, tuve la oportunidad de responder esta pregunta, o al menos una notablemente parecida, en stats.stackexchange.com/a/130772 . ¿No es ese hilo un duplicado de este?
whuber

1
@cardinal: quiero decir, literalmente, 10 minutos. Para este tipo de tema y para personas sin antecedentes, esto es MUY poco tiempo. --------------- Estimado whuber: me encantó tu respuesta, pero sería genial para los estudiantes saber qué es la probabilidad y la relación entre densidad y área. Estos son conceptos que se enseñan a los estudiantes, pero no a los estudiantes de secundaria. No deseo que comprendan completamente las pruebas de hipótesis, sino mantenerlas lo suficiente para que tengan una idea al tomar una decisión sobre lo que significa cada región de rechazo.
Tal Galili

44
Gracias por la aclaración, Tal. Todavía parece estar indicando que otro hilo es un duplicado de su pregunta, pero que simplemente no ha visto una respuesta adecuada allí. Una buena manera de diferenciar su pregunta de esa sería proporcionar requisitos específicos sobre el nivel de exposición y lo que podemos suponer que el público sabe, tanto como usted comenzó a hacer en su comentario.
whuber

Respuestas:


10

Creo que deberías comenzar preguntándoles qué creen que realmente significa decir acerca de una persona que él o ella puede distinguir la diferencia entre coca-cola y pepsi. ¿Qué puede hacer esa persona que otros no pueden hacer?

La mayoría de ellos no tendrá tal definición, y no podrá producir una si se le pregunta. Sin embargo, un significado de esa frase es lo que nos da las estadísticas, y eso es lo que puede aportar con su clase de "gusto por las estadísticas".

Uno de los puntos de las estadísticas es dar una respuesta exacta a la pregunta: "¿qué significa decir de alguien que él o ella puede distinguir la diferencia entre coca-cola y pepsi"?

La respuesta es: él o ella es mejor que una máquina de adivinanzas para clasificar tazas en una prueba a ciegas. La máquina de adivinanzas no puede notar la diferencia, simplemente adivina todo el tiempo. La máquina de adivinanzas es una invención útil para nosotros porque sabemos que no tiene la capacidad. Los resultados de la máquina de adivinanzas son útiles porque muestran lo que deberíamos esperar de alguien que carece de la capacidad que probamos.

Para probar si una persona puede distinguir la diferencia entre coca-cola y pepsi, uno debe comparar sus clasificaciones de tazas en una prueba a ciegas con la clasificación que haría una máquina de adivinanzas. Solo si él / ella es mejor que la máquina de adivinanzas, él / ella puede notar la diferencia.

¿Cómo, entonces, determina si un resultado es mejor que otro? ¿Qué pasa si son casi lo mismo?

Si dos personas clasifican una pequeña cantidad de tazas, no es justo decir que una es mejor que la otra si los resultados son casi los mismos. ¿Quizás el ganador tuvo suerte hoy, y los resultados se habrían revertido si la competencia se repitiera mañana?

Si queremos obtener un resultado confiable, no se puede basar en un pequeño número de clasificaciones, porque entonces la casualidad puede decidir el resultado. Recuerda, no tienes que ser perfecto para tener la habilidad, solo tienes que ser mejor que la máquina de adivinanzas. De hecho, si el número de clasificaciones es demasiado pequeño, ni siquiera una persona que siempre identifica correctamente la coca-cola podrá demostrar que es mejor que la máquina de adivinanzas. Por ejemplo, si solo hay una taza para clasificar, incluso la máquina de adivinanzas tendrá un 50% de posibilidades de clasificar completamente correcta. Eso no es bueno, porque eso significa que en el 50 por ciento de los ensayos, concluiríamos falsamente que un buen identificador de coca-cola no es mejor que la máquina de adivinanzas. Muy injusto.

Cuantas más tazas hay para clasificar, más oportunidades para revelar la incapacidad de la máquina de adivinanzas y más oportunidades para mostrar el buen identificador de coca-cola.

10 tazas pueden ser un buen lugar para comenzar. ¿Cuántas respuestas correctas debe tener un humano para demostrar que es mejor que la máquina?

Pregúnteles qué adivinarían.

Luego, permítales usar la máquina y descubran lo bueno que es, es decir, que todos los alumnos generen una serie de diez conjeturas, por ejemplo. usando un dado o un generador aleatorio en el teléfono inteligente. Para ser pedagógico, debe preparar una serie de diez respuestas correctas, contra las cuales se deben evaluar las conjeturas.

Registre todos los resultados en la pizarra. Imprima los resultados ordenados en la pizarra. Explique que un humano tendría que ser mejor que el 95 por ciento de esos resultados antes de que un estadístico reconozca su capacidad para distinguir entre la coca-cola y la pepsi. Dibuja la línea que separa los peores resultados del 95% de los mejores resultados del 5%.

Luego, deje que algunos alumnos intenten clasificar 10 tazas. A estas alturas, los alumnos deben saber cuántos derechos tienen que tener para demostrar que pueden notar la diferencia.

Sin embargo, todo esto no es factible en 10 minutos.


2
Gracias Hans. Me gusta tu respuesta por varias razones. 1) Porque traes una nueva idea a la mesa "hacer que los niños compitan con una máquina de adivinanzas". Admito que se me pasó por la cabeza, pero su respuesta fortalece mi opinión de que esto podría funcionar mejor que hacer que compitan con la distribución teórica de la hipótesis nula p = .5. 2) Porque entiendes que no todo lo que proponías era factible en 10 minutos :)
Tal Galili

2
Gracias tal. a) Creo que la máquina de adivinanzas es mucho más intuitiva que la distribución teórica. b) Espero que pueda dedicar más de 10 minutos para la prueba de hipótesis.
Hans Ekbrand

¿Por qué el 95%, ja, ja?
Mark L. Stone el

2

Trabajar con refrescos suena divertido, y la prueba de si los adolescentes realmente pueden notar la diferencia entre los refrescos tiene sentido una vez que tenga un conocimiento razonable de las pruebas de hipótesis. El problema podría ser que esta pregunta: "¿puede realmente notar la diferencia entre los refrescos?" es complicado por muchas otras cosas en la mente de los adolescentes, como "¿quién es bueno y quién es malo para probar los refrescos?", "¿hay alguna diferencia entre los refrescos?"

Nunca he enseñado estadísticas de adolescentes, pero siempre he fantaseado con usar un dado cargado o una moneda sesgada. Muere más interesante, pero estadísticamente más desafiante. Con el ejemplo de la moneda, una moneda es o no es justa. No hay nada bueno en lanzar monedas. No se puede decidir si es cara o cruz.

Si lanzamos una moneda por quién gana $ 100, y sale cara (¡tú ganas!), Podría decir: "Oye. ¿Cómo sé si esa moneda es justa? ¡Apuesto a que manipulaste la competencia!". Dices "¿Ah sí? Pruébalo". La solución bastante obvia es voltear la moneda una y otra vez para ver si sale más cara que cruz. Lo volteamos y sale cara. "¡Ahha! Digo. ¡Seee! ¡Está sesgado hacia las cabezas!" Y así.

Las buenas monedas sesgadas no existen, pero los dados sesgados sí, puedes comprar una en Amazon. Podrías ofrecer un premio a los estudiantes si pueden ganar cierto número de rollos. Pero sabes que ganarás. Estarán enojados Dices, OK, te daré el premio si puedes probar que este dado está sesgado, con digamos, 95% de confianza.

Luego pasa a la gaseosa. ¡El premio podría incluso ser una fiesta de gaseosas! "Hey, me pregunto si ustedes pueden notar la diferencia entre coca y pepsi ..."


66
" No hay nada bueno en lanzar monedas ". Habiendo visto a Persi Diaconis voltear cabezas a voluntad, creo que puede haberlas.
Glen_b -Reinstale a Monica

decir ah. ahora voy a tratar de ser bueno en eso!
tim.farkas

1
Diaconis es estadista y mago. Hay videos de él demostrándolo (volteando la cabeza cuando quiere) en youtube.
Glen_b -Reinstala a Monica

Hola Tim. Traes buenos puntos, pero no abordan mi pregunta directamente. Dado que sus estudiantes obtuvieron x de 10 pruebas correctamente (una prueba es elegir la marca correcta, según el gusto), ¿cómo puede explicar por qué decide que son buenas / malas al tomar esa decisión?
Tal Galili

Nuevamente puedes usar el lanzamiento de monedas. Si prueban un poco y lo hacen bien, no es muy convincente, ya que si lanzas una moneda, ¡debería ser "correcta" el 50% del tiempo! Si lo haces bien dos veces, la probabilidad de hacerlo por casualidad es la misma que voltear dos cabezas = .5 * .5 = .25. 3 veces seguidas es .125, 4 es .0625, 5 es .0313. Tienes que elegir el nivel de confianza que deseas. es 50% lo suficientemente seguro? ¿Qué tal el 25%? R. Fisher dice que el 95% de seguro es lo suficientemente bueno, y eso es lo que usan muchos científicos. Esto se llama técnicamente una prueba de signos. Vea abajo.
tim.farkas

2

Considere a alguien haciendo prácticas de tiro con una escopeta, que dispara ráfagas de perdigones en la dirección del cañón.

Hipótesis nula: soy un buen tirador, y mi cañón está perfectamente en el blanco. No a la izquierda, no a la derecha, sino directamente. Mi error es 0

Hipótesis alternativa: soy un mal tirador y mi cañón está fuera del objetivo. Justo a la izquierda o a la derecha del objetivo. Mi error es e> 0 o e <0.

Dado que cualquier medición tiene un cierto error promedio (es decir, error estándar), es posible una medición que dice "fuera del objetivo", incluso si estoy disparando directamente. Tendré que no "golpear" mi objetivo (en absoluto, incluso con cada disparo como una ráfaga / propagación) un cierto número de veces, antes de que pueda llamarme un mal tirador y elegir la Hipótesis Alternativa.


1
Bienvenido a CV. ¿Podría relacionar sus explicaciones con la nula y la alternativa? Quizás alguna discusión adicional podría ayudar a motivarlos. También hay algunos nulos y alternativas para los que esta explicación no sería adecuada, es posible que deba mencionar para qué tipo de hipótesis sería una explicación adecuada (por ejemplo, punto nulo, dos colas)
Glen_b

1

Suponga que los niños no pueden notar la diferencia y decidan por casualidad. Entonces cada niño tiene un 50% de posibilidades de adivinarlo bien. Entonces, usted espera (valor esperado) que en este caso, 5 niños lo hagan bien y 5 niños erren. Por supuesto, como es casualidad, también es posible que 6 niños se equivoquen y 4 lo hagan bien, y así sucesivamente. En el lado opuesto, incluso si los niños pueden notar la diferencia, es posible que por casualidad uno de ellos se equivoque.

Intuitivamente, está claro, que si los niños adivinan por casualidad, es bastante improbable que todos los niños den la respuesta correcta. En este caso, uno preferiría creer que los niños realmente podrían saborear la diferencia entre ambas bebidas. En otras palabras, no esperamos que se observen eventos improbables. Entonces, si observamos un evento que es improbable bajo el escándalo 50-50, creemos que este escenario es falso y los niños pueden distinguir entre Coca-Cola y Pepsi.

αα0.00098αα=0.05

P(all kids guess it right)=0.00098P(only one kid confuses Coke with Pepsi)=0.01074P(only two kids confuse)=0.05468

Este es el momento en el que realizas el experimento. Hágalo a fondo con los 10 alumnos, incluso si acaba de calcular que podría detenerse después del segundo error. Luego registre los resultados y guárdelos. Necesitará los resultados si desea explicarles los metanálisis.

(Por cierto, el ejemplo histórico se trata de probar si la leche o el té se han vertido primero en la taza. La dama de degustación de té).



0

El experimento de degustación de coca de los niños es un buen ejemplo para presentar una prueba de hipótesis, como lo demostró el experimento del té de degustación de mujeres. Sin embargo, evaluar esos experimentos no es muy intuitivo porque la hipótesis nula implica la distribución binomial con p = 0.5, y no es sencilla.

En mi introducción habitual a la prueba de hipótesis, trato de superar este inconveniente utilizando solo el caso de todos los éxitos en la distribución binomial, cuya probabilidad puede calcularse como p ^ n incluso por personas que no conocen la probabilidad binomial.

En mi ejemplo favorito, me gustan las castañas asadas y compro un puñado de ellas de un vendedor ambulante. Los obtengo a un precio de descuento porque provienen de una bolsa grande donde el 10% de las castañas tienen un agujero de gusano; aquí trato de aclarar que la bolsa se ha mezclado bien para que mi puñado de castañas sea una muestra aleatoria de las castañas en la bolsa y la declaración del vendedor significa que cada castaño tiene una probabilidad independiente del 10% de tener un agujero de gusano.

Cuando empiezo a disfrutar mis castañas asadas, las tomo una por una y las reviso en busca de agujeros de gusanos antes de comerlas.

Cuando reviso la primera castaña, veo un agujero de gusano, y me pregunto si el vendedor me mintió; explico aquí que me pregunto si eso establece mi hipótesis nula p = 10% y mi hipótesis alternativa p> 10%, y pongo ellos en la pizarra. ¿Tengo alguna razón para dudar de que p = 10% cuando obtuve una castaña mala de una? Bueno, el 10% de las personas que realizan el mismo experimento obtendrían el mismo resultado, así que puedo pensar que tuve mala suerte.

Luego, tomo la segunda castaña y también tiene un agujero de gusano. Dos de cada dos tienen una probabilidad de solo 1% si el vendedor no me ha mentido. Podría haber tenido muy mala suerte, pero sospecho mucho del vendedor.

El tercer castaño también tiene un agujero de gusano. Obtener las tres castañas con gusanos de tres no sería imposible suponiendo que el vendedor es justo y p = 10%, pero sería muy poco probable (probabilidad = 0.1%). Por lo tanto, ahora tengo una buena razón para dudar sobre el trabajo del proveedor y planteo una queja y solicito que me devuelvan el dinero.

Por supuesto, este tipo de prueba sucesiva tiene algunos problemas teóricos, pero no importa mucho mostrar la idea de una prueba de hipótesis. De hecho, la idea más importante que no se cubre en ese ejemplo es que en las pruebas de hipótesis calculamos la probabilidad de los resultados que obtenemos o algo peor; en mi ejemplo, esto se evitó simplemente obteniendo el peor resultado posible.

He usado este ejemplo varias veces con estudiantes de primer año en la universidad, que todavía son técnicamente adolescentes, pero creo que también podría funcionar bien con adolescentes más jóvenes.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.