Recientemente escribí una entrada en un blog de linkedin que decía el lema de Neyman Pearson en palabras simples y que proporcionaba un ejemplo. Encontré el ejemplo revelador en el sentido de proporcionar una clara intuición sobre el lema. Como a menudo es probable, se basa en una función de masa de probabilidad discreta, por lo que es más fácil de entender que cuando se trabaja con archivos PDF. Además, tenga en cuenta que defino la razón de probabilidad como la probabilidad de la hipótesis alternativa frente a la hipótesis nula, contrario a su lema. La explicación es la misma, pero en lugar de menor que ahora es mayor que. Espero que ayude...
Aquellos de ustedes que trabajan en el análisis de datos y han pasado por algunos cursos de estadística pueden haber llegado a conocer el lema de Neyman-Pearson (lema NP). El mensaje es simple, la demostración no tanto, pero lo que siempre me resultó difícil fue tener un sentido común de lo que se trataba. Al leer un libro llamado "Errores comunes en las estadísticas" por PIGood y JWHardin, llegué a una explicación y un ejemplo que me ayudaron a tener este presentimiento sobre el lema NP que siempre había echado de menos.
En un lenguaje no 100% matemáticamente perfecto, lo que nos dice Neyman-Pearson es que la prueba más poderosa que se puede hacer para validar una hipótesis dada dentro de un cierto nivel de importancia viene dada por una región de rechazo hecha por todas las observaciones posibles que provienen de esta prueba con una razón de probabilidad por encima de cierto umbral ... ¡woahhh! ¡Quién dijo que fue fácil!
Mantén la calma y deconstruye el lema:
- Hipótesis . En estadística uno siempre trabaja con dos hipótesis de que una prueba estadística debería rechazar o no rechazar. Existe la hipótesis nula, que no será rechazada hasta que la evidencia de la muestra en su contra sea lo suficientemente fuerte. También existe la hipótesis alternativa, la que tomaremos si el nulo parece ser falso.
- El poder de una prueba (también conocida como sensibilidad) nos dice qué proporción de veces rechazaremos correctamente la hipótesis nula cuando está equivocada. Queremos pruebas potentes, por lo que la mayoría de las veces rechazamos la hipótesis nula, ¡tenemos razón!
- El nivel de significancia de una prueba (también conocida como tasa de falsos positivos) nos dice qué proporción de veces rechazaremos erróneamente la hipótesis nula cuando sea cierta. Queremos un nivel de significancia pequeño, así que la mayoría de las veces rechazamos la hipótesis nula, ¡no nos equivocamos!
- Región de rechazo , dados todos los resultados posibles de la prueba, la región de rechazo incluye aquellos resultados que nos harán rechazar la hipótesis nula en beneficio de su alternativa.
- La probabilidad es la probabilidad de haber visto el resultado observado de la prueba dado que la hipótesis nula (Probabilidad de la hipótesis nula) o la alternativa (Probabilidad de la hipótesis alternativa) eran verdaderas.
- La razón de verosimilitud es la razón de la probabilidad de hipótesis alternativa dividida por la probabilidad de hipótesis nula. Si el resultado de la prueba era muy esperado si la hipótesis nula fuera verdadera versus la alternativa, la razón de probabilidad debería ser pequeña.
¡Basta de definiciones! (¡aunque si los mira detenidamente, se dará cuenta de que son muy perspicaces!). Vayamos a lo que nos dicen Neyman y Pearson: si desea tener la mejor prueba estadística posible desde el punto de vista de su poder, simplemente defina la región de rechazo incluyendo aquellos resultados de prueba que tienen la mayor probabilidad y continúe agregando más pruebas. resultados hasta que alcance un cierto valor para la cantidad de veces que su prueba rechazará la hipótesis nula cuando sea verdadera (nivel de significancia).
Veamos un ejemplo donde, con suerte, todo se unirá. El ejemplo se basa en el libro mencionado anteriormente. Está completamente inventado por mí mismo, por lo que no debe verse como un reflejo de ninguna realidad u opinión personal.
Imagine que uno quiere determinar si alguien está a favor de establecer cuotas de inmigración (hipótesis nula) o no (hipótesis alternativa) preguntando sus sentimientos frente a la Unión Europea.
Imaginemos que conocemos la distribución de probabilidad real para ambos tipos de personas con respecto a la respuesta a nuestra pregunta:
Imaginemos que estamos dispuestos a aceptar un error falso positivo del 30%, es decir, el 30% de las veces rechazaremos la hipótesis nula y asumiremos que la persona entrevistada está en contra de las cuotas cuando realmente es para ellos. ¿Cómo construiríamos la prueba?
Según Neyman y Pearson, primero tomaríamos el resultado con la razón de probabilidad más alta. Esta es la respuesta de "realmente me gusta la UE" con una proporción de 3. Con este resultado, si asumimos que alguien está en contra de las cuotas cuando dijo que "realmente le gusta la UE", 10% del tiempo estaríamos asignando para cuotas de personas frente a (significación). Sin embargo, solo estaríamos clasificando correctamente contra las personas con cuota el 30% del tiempo (poder) ya que no todos en este grupo tienen la misma opinión sobre la UE.
Esto parece ser un mal resultado en lo que respecta al poder. Sin embargo, la prueba no comete muchos errores al clasificar erróneamente a las personas con cuota (importancia). Como somos más flexibles con respecto a la importancia, busquemos el siguiente resultado de la prueba que deberíamos agregar a la bolsa de respuestas que rechazan la hipótesis nula (región de rechazo).
La siguiente respuesta con el índice de probabilidad más alto es "como la UE". Si utilizamos las respuestas "me gusta" y "me gusta" de la UE como resultados de las pruebas que nos permiten rechazar la hipótesis nula de que alguien esté a favor de las cuotas, estaríamos clasificando erróneamente a las personas con cuotas como no el 30% del tiempo (10% de "me gusta" y 20% de "me gusta") y estaríamos clasificando correctamente contra las cuotas las personas el 65% del tiempo (30% de "me gusta" y 35% de "me gusta"). En jerga estadística: nuestra importancia aumentó del 10% al 30% (¡malo!), Mientras que el poder de nuestra prueba aumentó del 30% al 65% (¡bueno!).
Esta es una situación que tienen todas las pruebas estadísticas. ¡No hay algo como un almuerzo gratis incluso en las estadísticas! Si desea aumentar el poder de su prueba, hágalo a expensas de aumentar el nivel de importancia. O en términos más simples: si quieres clasificar mejor a los buenos, ¡lo harás a expensas de que más chicos malos se vean bien!
Básicamente, ahora hemos terminado! Creamos la prueba más poderosa que pudimos con los datos dados y un nivel de significación del 30% mediante el uso de etiquetas "me gusta" y "me gusta" para determinar si alguien está en contra de las cuotas ... ¿estamos seguros?
¿Qué hubiera pasado si hubiéramos incluido en el segundo paso después de elegir la respuesta "realmente similar", la respuesta "indiferente" en lugar de "igual"? La importancia de la prueba habría sido la misma que antes con un 30%: el 10% para las personas con cuota responde "realmente" me gusta y el 20% para las personas con cuota responde "disgusto". Ambas pruebas serían tan malas para clasificar erróneamente a los individuos con cuotas. Sin embargo, ¡el poder empeoraría! Con la nueva prueba tendríamos un poder del 50% en lugar del 65% que teníamos antes: 30% de "me gusta" y 20% de "indiferente". ¡Con la nueva prueba, seríamos menos precisos para identificarnos contra los individuos con cuotas!
¿Quién ayudó aquí? Neyman-Person ratio de probabilidad idea notable! ¡Tomar en cada momento la respuesta con la razón de probabilidad más alta nos aseguró que incluimos en la nueva prueba la mayor potencia posible (numerador grande) mientras mantenemos la importancia bajo control (pequeño denominador)!