Suponga que desea saber qué porcentaje de personas votaría por un candidato en particular (por ejemplo, , tenga en cuenta que, por definición, π está entre 0 y 100). Usted toma muestras de N votantes al azar para averiguar cómo votarían y su encuesta de estos N votantes le dice que el porcentaje es pππNNp . Entonces, le gustaría establecer un intervalo de confianza para el porcentaje verdadero.
Si supone que se distribuye normalmente (una suposición que puede o no justificarse según cuán 'grande' sea N ), entonces su intervalo de confianza para π sería de la siguiente forma:
C I = [ p - k ∗ s d ( p ) , p + k ∗ s d ( p ) ]
donde kpNπ
CI=[p−k∗sd(p), p+k∗sd(p)]
k es una constante que depende del grado de confianza que desee (es decir, 95% o 99%, etc.).
Desde una perspectiva de sondeo, desea que el ancho de su intervalo de confianza sea 'bajo'. Por lo general, los encuestadores trabajan con el margen de error, que es básicamente la mitad del IC. En otras palabras, MoE=k∗sd(p) .
Así es como haríamos para calcular : Por definición, p = ∑ X i / N donde, X i = 1sd(p)p=∑Xi/NXi=1 si el votante vota por el candidato y 0i0 caso contrario.
Como muestreamos al azar a los votantes, podríamos suponer que es una variable aleatoria iid Bernoulli. Por lo tanto,
V a r ( P ) = VXi
Var(P)=V(∑XiN)=∑V(Xi)N2=Nπ(1−π)N2=π(1−π)N.
sd(p)=π∗(1−π)N−−−−−−−−−√
πsd(p)π=0.5sd(p)=0.5∗0.5/N−−−−−−−−−√=0.5/N−−√
So, you see that the margin of error falls off exponentially with
N and thus you really do not need very big samples to reduce your margin of error, or in other words
N need not be very large for you to obtain a narrow confidence interval.
k=1.96N=1000
[p−1.960.51000−−−−√, p+1.960.51000−−−−√]=[p−0.03, p+0.03]
As we increase
N the costs of polling go up linearly but the gains go down exponentially. That is the reason why pollsters usually cap
N at 1000 as that gives them a reasonable error of margin under the worst possible assumption of
π=50%.