¿Puede explicar por qué el empate estadístico no se rechaza ingenuamente cuando ?

12

Necesito ayuda para explicar y citar textos estadísticos básicos, documentos u otras referencias, por qué generalmente es incorrecto usar la estadística de margen de error (MOE) informada en las encuestas para declarar ingenuamente un empate estadístico.

Un ejemplo: el candidato A lidera al candidato B en una encuesta, por ciento, margen de error de para votantes encuestados. $39 - 31$ $4.5 \%$ $500$

Mi amigo razona así:

Debido a las complejidades del modelado estadístico, el margen de error significa que el verdadero apoyo de A podría ser tan bajo como 34.5 por ciento y B podría ser tan alto como 35.5 por ciento. Por lo tanto, A y B están realmente en un punto muerto estadístico.

Toda la ayuda apreciada en la articulación clara de la falla del razonamiento de mi amigo. He tratado de explicar que es incorrecto rechazar ingenuamente la hipótesis "A conduce a B" si . $p_A-p_B < 2MOE$

polling

— Antoni Parellada
fuente

Para obtener más información al respecto, incluidos los enfoques para combinar MOE correctamente, consulte stats.stackexchange.com/questions/18215 .

— whuber

7

Mi primer intento de respuesta fue defectuoso (ver abajo la respuesta defectuosa). La razón por la cual es defectuoso es que el margen de error (MOE) que se informa se aplica al porcentaje de votación de un candidato pero no a la diferencia de los porcentajes. Mi segundo intento aborda explícitamente la pregunta planteada por el OP un poco mejor.

Segundo intento

El amigo del OP razona de la siguiente manera:

Construya el intervalo de confianza para el candidato A y el candidato B por separado utilizando el MOE dado.
Si se superponen, tenemos una audiencia estadística inactiva y si no lo hacen, entonces A está liderando a B.

El problema principal aquí es que el primer paso no es válido. La construcción de intervalos de confianza independientemente para los dos candidatos no es un paso válido porque los porcentajes de encuesta para los dos candidatos son variables aleatorias dependientes. En otras palabras, un votante que decide no votar por A puede potencialmente decidir votar por B en su lugar. Por lo tanto, la forma correcta de evaluar si la derivación es significativa o no es construir un intervalo de confianza para la diferencia. Vea la wiki sobre cómo calcular el error estándar para la diferencia de porcentajes de sondeo bajo algunos supuestos.

Respuesta defectuosa a continuación

En mi opinión, la forma "correcta" de pensar en el resultado de la encuesta es la siguiente:

En una encuesta de 500 votantes, las posibilidades de que veamos una diferencia en el plomo de hasta 8% es mayor que 5%.

Si crees que 'A lidera a B' o 'A ata a B' depende de la medida en que estés dispuesto a aceptar el 5% como criterio de corte.

@Srikvant. Suponga que el 5% es un significado aceptable Estoy buscando una respuesta más precisa, una que exponga la idea de que "A conduce a B" es una nueva estadística, la diferencia de pA y pB, y que su intervalo de confianza correspondiente no es simplemente 2 * MOE.

4

Es más fácil de explicar en términos de desviaciones estándar, en lugar de intervalos de confianza.

La conclusión de su amigo es básicamente correcta según el modelo más simple donde tiene un muestreo aleatorio simple y dos candidatos. Ahora las proporciones de la muestra satisfacen modo que . Por lo tanto, y entonces Lo que hace posible esta simple relación es que y están perfectamente correlacionadas negativamente, porque en general $p_A + p_B = 1$ $p_B = 1 - p_A$

V a r (p_{A} - p_{B}) = V a r (2 p_{A} - 1) = 4 V a r (p_{A})

$Var(p_A - p_B) = Var(2 p_A - 1) = 4 Var(p_A)$

S D (p_{A} - p_{B}) = 2 S D (p_{A}) .

$SD(p_A - p_B) = 2 SD(p_A).$

p_{A}

$p_A$

p_{B}

$p_B$

V a r (p_{A} - p_{B}) = V a r (p_{A}) + V a r (p_{B}) - 2 C o v (p_{A}, p_{B}) .

$Var(p_A - p_B) = Var(p_A) + Var(p_B) - 2 Cov(p_A, p_B).$

Fuera de este modelo simple , si no se cumple en general, entonces debe tener en cuenta la correlación entre y que no está incluida en el margen de error. Es posible para . $p_A + p_B = 1$ $p_A$ $p_B$ $SD(p_A - p_B) \ll 2 SD(p_A)$

Pero todo este matiz parece indicar que las organizaciones de votación deberían informar el margen de error en la diferencia. ¿Dónde está Nate Silver?

— vqv
fuente

4

No solo es una mala forma de denominar las cosas, sino que ni siquiera es un punto muerto estadístico.

No utiliza intervalos de confianza superpuestos de esa manera. Si realmente quería decir que el candidato A iba a ganar, el candidato A definitivamente está a la cabeza. El plomo es 8% MOE 6.4%. El intervalo de confianza de ese puntaje de resta no es el doble del intervalo de confianza de los puntajes individuales. Lo que está implícito al afirmar que la superposición de IC (± MOE) alrededor de cada estimación es un punto muerto. Suponiendo que N y varianza sean iguales, el MOE de la diferencia es sqrt (2) multiplicado por 4.5. Esto se debe a que encontrar la diferencia entre los valores solo duplicaría la varianza (SD al cuadrado). El intervalo de confianza se basa en un sqrt de la varianza, por lo tanto, combinarlos es el promedio (4.5) * sqrt (2). Dado que el MOE de su 8% de ventaja es aproximadamente 6.4%, entonces el candidato A está a la cabeza.

Por otro lado, los MOE son muy conservadores y se basan en el valor de elección del 50%. La fórmula es sqrt (0.25 / n) * 2. Existe una fórmula para calcular errores estándar de puntajes de diferencia que también podríamos usar. Aplicaríamos eso usando los valores encontrados en lugar del 50% de corte y eso todavía nos da una ventaja significativa para el Candidato A (7.5% MOE). Creo que, dado el comentario de los interrogadores, y la proximidad de ese límite al hipotético seleccionado, eso era probablemente lo que estaban buscando.

Cualquier introducción a los intervalos de confianza y al poder sería útil aquí. Incluso el artículo de Wikipedia sobre MOE se ve bastante bien.

— John
fuente