¿Por qué debería / funciona el muestreo estadístico (?) Para la política (por ejemplo, Gallup)

Las encuestas por ahí (digamos, Gallup) muestran un número absurdamente bajo de personas en comparación con el tamaño de la población (por ejemplo, tal vez mil personas de cientos de millones).

Ahora, para mí, tomar muestras de una población como un medio para estimar las estadísticas de la población tiene sentido cuando tienes una razón sólida para creer que las muestras son representativas de la población (o, de manera similar, de otras muestras ) .

Por ejemplo, el muestreo obviamente tiene sentido para los estudios médicos, porque sabemos a priori que todos los humanos tienen genomas bastante similares y que este factor hace que sus cuerpos se comporten de manera similar.
Tenga en cuenta que esto no es un tipo de acoplamiento suelto: el genoma es un factor determinante muy fuerte .

Sin embargo, no entiendo qué justifica el uso de tamaños de muestra bajos para cosas como encuestas políticas.

Podría comprar que tal vez el 80-90% de las personas en cualquier vecindario votan de manera similar por el presidente (debido a antecedentes socioeconómicos / educativos similares), pero esto apenas parece justificar el número absurdamente bajo de muestras. Literalmente no hay una razón convincente (al menos para mí) por la cual 1000 votantes al azar deberían comportarse como los 200 millones de otros votantes.

Para mí, necesitaría al menos como (digamos) 100 × esa cantidad. ¿Por qué? Se me ocurren muchas razones, por ejemplo:

Hay ~ 22,000 recintos solo en California . Las personas crecen de manera tan diferente en sus antecedentes económicos y educativos que una encuesta de tamaño 1000 parece ridículamente pequeña. ¿Cómo puede resumir recintos completos con <1 persona en promedio?
Las personas generalmente no pueden cambiar las respuestas de sus cuerpos a la medicina, pero pueden cambiar sus opiniones sobre la política con solo pensarlo. Desde mi punto de vista, no hay ningún factor de fuerza similar al ADN en la medicina cuando se trata de política. En el mejor de los casos , me imagino que debería haber pequeños bolsillos de correlación.

Sin embargo, de alguna manera, encuestas como esta parecen ... ¿funcionar de todos modos? ¿O al menos la gente parece pensar que sí?
¿Pero por qué deberían hacerlo? ¿Quizás no entiendo fundamentalmente el muestreo ? Alguien puede explicar?
Simplemente no puedo tomar en serio ninguna de las encuestas que veo, pero siento que estoy más o menos solo en esto ...

sampling sample-size

— usuario541686
fuente

"el muestreo obviamente tiene sentido para los estudios médicos, porque sabemos a priori que todos los humanos tienen genomas bastante similares" No tengo antecedentes médicos, pero ¿ realmente nuestro ADN difiere menos que nuestras opiniones políticas? Si es así, ¿por qué es tan difícil estudiar la genética y por qué no lo teníamos ya? Apostaría a que si tomas dos personas al azar, entonces será más probable que tengan las mismas opiniones políticas, entonces el mismo ADN.

— Tim

@Tim: "Apostaría a que si tomas a dos personas al azar, será más probable que tengan las mismas opiniones políticas, entonces el mismo ADN". ¿Cuánto quieres apostar? google.com/search?q=dna+similarity+between+humans

— usuario541686

Pero, ¿no es la diferencia del 0,5% lo más importante cuando haces tales comparaciones? Además, compartimos el 60% de los genes con las moscas , así que supongo que podríamos tomar muestras de humanos y moscas de forma intercambiable para investigación médica. Comparado: en 2008 Obama obtuvo el 53% de los votos en las elecciones presidenciales de Estados Unidos. Además, argumentaría que al investigar medicamentos que salvan vidas pero son potencialmente peligrosos, debe ser más cuidadoso en el muestreo que al investigar sobre la preferencia por usar jabón producido por la compañía A vs B, o por grupos de opinión.

— Tim

@ user2338816: "Es convincente porque ha sido históricamente exacto", aunque se parece menos a las matemáticas y más a la ciencia. Estoy completamente dispuesto a comprarlo por razones científicas (porque así es como funciona la ciencia), pero no por razones puramente matemáticas (basadas en pruebas).

— user541686

Desafiaría la (cautelosa) afirmación de que las encuestas funcionan para las elecciones. No recuerdo que las encuestas estén cerca de los resultados reales de las elecciones de donde soy. Simplemente hay demasiados factores que realmente no puede tener en cuenta; por ejemplo, con nuestra asistencia del ~ 60%, es casi tan probable que muestre a alguien que no va a votar que a uno que no lo hace. Participar en una encuesta es menos esfuerzo que votar, y a veces incluso te pagan por ello. Algunos partidos tienen mucha más asistencia que otros (como el partido comunista). Debe citar la desviación y los "resultados" en cualquier muestreo.

— Luaan

Respuestas:

Parece que estás imaginando un modelo de muestreo muy simple.

El modelo más simple para el muestreo se llama acertadamente muestreo aleatorio simple . Usted selecciona un subconjunto de la población (por ejemplo, marcando números de teléfono al azar) y pregunta a quien responde cómo está votando. Si 487 dicen Clinton, 463 dicen Trump, y el resto le da una respuesta descabellada, entonces la empresa encuestadora informaría que el 49% de los votantes prefiere Clinton, mientras que el 46% prefiere Trump. Sin embargo, las empresas encuestadoras hacen mucho más que esto. Una muestra aleatoria simple otorga el mismo peso a cada punto de datos. Sin embargo, suponga que su muestra contiene, por casualidad, 600 hombres y 400 mujeres, lo que claramente no es representativo de la población en general. Si los hombres como grupo se inclinan hacia un lado, mientras que las mujeres se inclinan hacia el otro, esto sesgará su resultado. Sin embargo, dado que tenemos estadísticas demográficas bastante buenas, puede pesar *las respuestas contando las respuestas de las mujeres un poco más y las de los hombres un poco menos, de modo que la respuesta ponderada represente mejor a la población. Las organizaciones de encuestas tienen modelos de pesaje más complicados que pueden hacer que una muestra no representativa se parezca a una más representativa.

La idea de ponderar las respuestas de la muestra tiene una base estadística bastante firme, pero hay cierta flexibilidad en la elección de los factores que contribuyen a las ponderaciones. La mayoría de los encuestadores vuelven a pesar basándose en factores demográficos como el género, la edad y la raza. Dado esto, usted podría pensar que la identificación del partido (demócrata, republicana, etc.) también debería incluirse, pero resulta que la mayoría de las empresas encuestadoras sí no la usan en sus pesas: la (auto) identificación del partido está enredada con la elección del votante de una manera que lo hace menos útil.

Muchos equipos de votación también informan sus resultados entre los "votantes probables". En estos, los encuestados son seleccionados o ponderados en función de la probabilidad de que realmente vayan a las urnas. Sin duda, este modelo también se basa en datos, pero la elección precisa de los factores permite cierta flexibilidad. Por ejemplo, incluir interacciones entre el candidato y la raza (o género) del votante ni siquiera fue sensato hasta 2008 o 2016, pero sospecho que ahora tienen cierto poder predictivo.

En teoría, podría incluir todo tipo de cosas como factores de ponderación: preferencia musical, color de ojos, etc. Sin embargo, los factores demográficos son opciones populares para los factores de ponderación porque:

Empíricamente, se correlacionan bien con el comportamiento de los votantes. Obviamente, no existe una ley revestida de hierro que "obligue" a los hombres blancos a ser republicanos delgados, pero en los últimos cincuenta años, han tendido a hacerlo.
- Los valores de la población son bien conocidos (por ejemplo, del censo o de los registros vitales)

Sin embargo, los encuestadores también ven las mismas noticias que todos los demás y pueden ajustar las variables de ponderación si es necesario.

También hay algunos "factores falsos" que a veces se invocan para explicar los resultados de la encuesta. Por ejemplo, los encuestados a veces son reacios a dar respuestas "socialmente indeseables". El efecto Bradley plantea que los votantes blancos a veces minimizan su apoyo a los candidatos blancos que se enfrentan a una minoría para evitar parecer racistas. Lleva el nombre de Tom Bradley, un candidato a gobernador afroamericano que perdió por poco las elecciones a pesar de liderar cómodamente en las encuestas.

Finalmente, tienes toda la razón de que el solo hecho de pedirle la opinión a alguien puede cambiarlo. Las empresas encuestadoras intentan escribir sus preguntas de manera neutral. Para evitar problemas con el orden de las posibles respuestas, los nombres de los candidatos pueden aparecer en orden aleatorio. Varias versiones de una pregunta también a veces se prueban unas contra otras. Este efecto también puede explotarse para fines nefastos en una encuesta de empuje , donde el entrevistador no está realmente interesado en recopilar respuestas sino en influir en ellas. Por ejemplo, una encuesta de inserción podría preguntar "¿Votaría por [Candidato A] incluso si se informara que fue un abusador de menores?".

* También puede establecer objetivos explícitos para su muestra, como 500 hombres y 500 mujeres. Esto se llama muestreo estratificado: la población se estratifica en diferentes grupos, y cada grupo se muestrea al azar. En la práctica, esto no se hace con mucha frecuencia para las encuestas, porque necesitaría estratificarse en muchos grupos exhaustivos (por ejemplo, hombres con educación universitaria entre 18 y 24 años en el área urbana de Texas).

— Matt Krause
fuente

Definitivamente entiendo que no están haciendo un muestreo aleatorio simple, pero mi pregunta es si lo que están haciendo es bueno solo porque sucede que sus suposiciones son correctas (es decir, una corazonada razonable pero subjetiva), o si las suposiciones también son estadísticamente justificable. Vea mi comentario sobre la otra respuesta aquí .

— user541686

Ambos, creo. La ponderación de la muestra es lo correcto estadísticamente, pero hay ... flexibilidad para decidir cómo elegir qué factores intervienen en las ponderaciones. Por ejemplo, la raza, el género y la educación son útiles, pero resulta que la identificación del partido a menudo no lo es (p. Ej., Theguardian.com/commentisfree/2012/sep/27/… ), probablemente porque está relacionado con el candidato del votante elección.

— Matt Krause el

Del mismo modo, las ponderaciones a veces incluyen una estimación de la probabilidad de que el encuestado vote: los jóvenes hacen mucho ruido, pero no siempre aparecen; los ancianos rara vez asisten a manifestaciones pero se presentan de manera confiable en las urnas. Esto podría estimarse a partir de datos históricos (las listas de votantes a veces son públicas), pero me imagino que algunos lugares lo ajustaron para afroamericanos en 2008 y para mujeres en 2016.

— Matt Krause,

¡Gracias! Podría ser bueno mencionar que "flexibilidad" en su respuesta también :) +1

— user541686

Hay un teorema matemático llamado "ley de los grandes números". Imagine que desea determinar la probabilidad de que una moneda salga cara. La "población" de monedas es infinita, mucho más grande que las más de 300,000,000 personas en los Estados Unidos. Pero de acuerdo con la Ley de Grandes Números, mientras más monedas hagas, más precisa será tu estimación.

La encuesta ideal: en la encuesta ideal, los encuestadores elegían al azar nombres del Censo de los EE. UU., Averiguarían dónde viven esas personas, luego irían y llamarían a su puerta. Si la persona dice que está planeando votar, el encuestador pregunta por quién está votando y registra su respuesta. Una encuesta como esta está garantizada matemáticamente para funcionar y la cantidad de error en su medición para cualquier nivel de confianza puede calcularse fácilmente .

Esto es lo que significa el error: supongamos que, en función de su encuesta, tiene una probabilidad del 52 por ciento de que Candidate Awesome McPerfect gane, con un error del 3% con un 98% de confianza. Eso significa que puede tener un 98% de confianza en que la verdadera porción de votantes que favorecen al candidato Awesome McPerfect está entre 49% y 55%.

Una nota sobre error y confianza Para un tamaño de muestra dado, cuanto más seguro esté, mayor será su error. Piénselo: está 100% seguro de que la proporción verdadera que admite canditate Awesome está entre 0% y 100% (la mayoría de los errores posibles), y está 0% seguro de que la proporción verdadera que admite canditate Awesome es exactamente 52.0932840985028390984308% (error cero). Más confianza significa más error, menos confianza significa menos error. Sin embargo, ¡la relación entre confianza y error NO es lineal! (Ver: https://en.wikipedia.org/wiki/Confidence_interval )

Encuestas en el mundo real: Debido a que es caro para los encuestadores de helicópteros en todas partes del país llamar a las puertas de personas al azar (aunque me encantaría ver que eso suceda; si eres un billón y ves esto, por favor considere financiar esto), las encuestas en el mundo real son más complejas. Veamos una de las estrategias más comunes: llamar a votantes al azar y preguntarles por quién votarían. Es una buena estrategia, pero tiene algunas fallas bien conocidas:

Las personas a menudo eligen no contestar el teléfono y responder a los encuestadores (por ejemplo, yo)
Algunos datos demográficos tienen más probabilidades de tener un teléfono fijo (por ejemplo, votantes mayores)
Algunos grupos demográficos tienen más probabilidades de responder a los encuestadores (por ejemplo, votantes mayores)

Debido a que diferentes grupos demográficos votan de diferentes maneras, los encuestadores deben hacer todo lo posible para controlar las diferencias en sus datos sin procesar (según quién decidió contestar el teléfono) y los resultados de las elecciones reales. Por ejemplo, si el 10% de las personas que levantaron el teléfono eran hispanos, pero el 30% de los votantes en las últimas elecciones eran hispanos, entonces darán tres veces más peso a los votantes hispanos en su encuesta. Si el 50% de las personas que contestaron el teléfono eran mayores de 60 años, pero solo el 30% de las personas que votaron en las últimas elecciones tenían más de 60 años, darán menos peso a los votantes mayores que respondieron. No es perfecto, pero puede conducir a algunas proezas impresionantes de predicción (Nate Silver predijo correctamente los resultados en cada uno de los 50 estados en las elecciones de 2012 usando estadísticas,

Una advertencia para los sabios: los encuestadores hacen las mejores predicciones que pueden sobre la base de cómo funcionaron las cosas en el pasado. En términos generales , las cosas funcionan igual que en el pasado, o al menos el cambio es lo suficientemente lento como para que el pasado reciente (en el que se centran más) se parezca al presente. Sin embargo, ocasionalmente hay cambios rápidos en el electorado y las cosas salen mal. Tal vez los votantes de Trump son un poco menos propensos que su votante promedio a contestar el teléfono, y la ponderación por demografía no tiene en cuenta eso. O tal vez los jóvenes (que apoyan abrumadoramente a Hillary) son incluso máses poco probable que conteste el teléfono de lo que predicen los modelos, y los que sí responden son más propensos a ser republicanos. O tal vez lo contrario de ambos es cierto, no lo sabemos. cosas como esas son variables ocultas que no aparecen en la demografía comúnmente recopilada.

Nos gustaría saber si enviamos encuestadores a tocar puertas al azar (ejem, multimillonario imaginaria leyendo esto), desde entonces no tendríamos a las cosas en peso basados en datos demográficos, pero hasta entonces, los dedos cruzados.

— J. Antonio Perez
fuente

Agradezco la respuesta, pero es un poco en relación a la pregunta elemental que estaba tratando de hacer y mi experiencia (no sé si se dio cuenta, pero estoy no exactamente nuevo a los fundamentos de la probabilidad / estadísticas); No creo que la respuesta a mi pregunta aquí sea tan básica como la suya. Por ejemplo: una suposición para la ley clásica de los grandes números es que tenemos variables aleatorias con distribuciones idénticas ... pero no veo una justificación para ello en un contexto político: ¿por qué debería ser la distribución que pones en mi voto y el tuyo? lo mismo en absoluto ?

— user541686

Además, ni siquiera estoy seguro de que la ley de los grandes números justifique lo que estaba tratando de justificar, incluso si se cumplen sus supuestos. La pregunta es sobre los tamaños de muestra que la ley de los grandes números realmente no aborda (al menos no de la manera que sugirió); Necesitamos alguna noción de la varianza o tasa de convergencia aquí, no solo la convergencia de la media en el infinito. ¿Quizás quiso invocar el teorema del límite central en lugar de la ley de los grandes números? (Aunque por favor vea mi comentario anterior ya que esto probablemente sea discutible.)

— user541686

Las distribuciones no se aplican a los votos individuales. Los votos individuales no son al azar. Se aplican al comportamiento de votación de la población en general. Es como dibujar bolas de colores de una urna: cada bola está predeterminada para que sea roja o azul, pero puede tener una probabilidad de dibujar cada color y, por lo tanto, puede construir una distribución para la probabilidad de dibujar un determinado color de bola según una muestra de las bolas en la urna

— J. Antonio Perez

Veamos algo más que política con la gente. El sabor de helado favorito de alguien depende de tantas cosas como sus opiniones políticas. Podría depender de las preferencias de sus amigos, buenos recuerdos de su infancia, buenas o malas experiencias en la heladería. Quizás les guste un sabor porque lo obtuvieron en su primera cita con su esposa o esposo. Quizás no les gusta un sabor porque les recuerda a su ex. Pero si hiciera una encuesta aleatoria de personas en Estados Unidos, ¿no estaría de acuerdo en que podría juzgar los mejores sabores de helados favoritos en Estados Unidos?

— J. Antonio Perez

La "variable aleatoria" es qué persona es seleccionada por el encuestador para pedirle su preferencia. La preferencia de un individuo no es aleatoria; qué individuo selecciona el encuestador es al azar.

— J. Antonio Perez

En primer lugar, esto es aparte de sus puntos principales, pero vale la pena mencionarlo. En el ensayo médico, es posible que 1000 personas prueben un medicamento que se puede administrar a las 10000 personas que están enfermas anualmente. Puede mirar eso y pensar "Eso se está probando en el 10% de la población", de hecho, la población no es de 10000 personas, todos son pacientes futuros, por lo que el tamaño de la población es infinito. 1000 personas no son grandes en comparación con los usuarios potenciales infinitos de la droga, pero este tipo de estudios funcionan. No es importante si evalúa al 10%, 1% o 0.1% de la población; Lo importante es el tamaño absoluto de la muestra, no su tamaño en comparación con la población.

Luego, su punto principal es que hay tantas variables de confusión que pueden influir en la votación de las personas. Estás tratando a los 22000 distritos de California como 22000 variables, pero en realidad son solo un puñado de variables (ingresos y educación como mencionaste). No necesita una muestra representativa de cada distrito, solo necesita suficientes muestras para cubrir la variación debido a ingresos, educación, etc.

Si usted tiene $k$ variables de confusión (edad, género, educación, etc.) y todos tienen efectos similares, entonces la varianza del voto aumenta aproximadamente $k$ veces. Si muestras $n$ personas, entonces la varianza del promedio de la muestra disminuye en un factor de $n$ . Por lo tanto, si la variación de cada variable de confusión es $\sigma^2$ entonces su promedio de muestra de $n$ personas con $k$ las variables de confusión serán $\frac{k\sigma^2}{n}$ .

Probablemente pueda pensar en 10 o más variables de confusión, pero el tamaño de la muestra es 1000 $k$ es mucho más pequeño que $n$ . Por lo tanto, la varianza del promedio de la muestra es bastante pequeña.

Editar:

La fórmula anterior suponía que cada variable de confusión es igualmente importante. Si queremos considerar cientos de cosas que pueden agregar variación a los resultados, entonces esta suposición no es válida (por ejemplo, tal vez los usuarios de Twitter apoyen a un candidato más, pero sabemos que el uso de Twitter no es tan importante como el género).

Podríamos enumerar todas las variables de confusión en orden de importancia (por ejemplo, género, edad, ingresos, ..., uso de Twitter, ...). Supongamos que cada variable es solo un 90% tan importante como la anterior. Ahora si el género agrega una varianza igual a $\sigma^2$ entonces la edad agrega una varianza igual a $0.9 \sigma^2$ y los ingresos se suman $0.9^2 \sigma^2$ . Si incluimos un número infinito de variables de confusión, entonces la variabilidad total es $\sum_{n=0}^{\infty} \sigma^2 0.9^n = 10 \sigma^2$ .

Con este tipo de consideración para las variables menores, hemos terminado con una variación con 10 veces la variabilidad del género solo. Entonces con $n$ muestras la variación en el promedio de la muestra es $\frac{10\sigma^2}{n}$ . Por supuesto $0.9$ fue elegido arbitrariamente, pero esto transmite un punto sobre cómo estas infinitas variables menores deberían sumar algo pequeño

— Hugh
fuente

¡Gracias por la respuesta! Con respecto al primer punto, supongo que es cierto, pero mi punto fue que ni siquiera importa el tamaño de la población humana, ya que tiene un factor de fuerza (ADN, etc.) que haría que los resultados fueran bastante similares para cualquier muestra Sin embargo, con respecto a la segunda: puedo comprar que podría haber algunas variables en la práctica, pero la única forma de justificar matemáticamente esa suposición y usarla más tarde es muestreando primero a un gran número de personas y demostrarlo, ¿verdad? Sin eso, la conclusión ya no parece estadísticamente rigurosa o justificable.

— user541686

Hemos establecido por experimento que la edad, el género, los ingresos y algunos otros son factores clave en el patrón de votación de las personas y también lo sabemos por conocimiento general. Tiene razón en que podría haber cientos de otros factores pequeños que influyen en los votos y, en teoría, podrían sumar algo significativo, pero nuestro conocimiento general nos dice que no son importantes. En este punto, el modelo no está rigurosamente justificado, pero ¿quién va a probar factores menores como "ser rubia hace que la gente vote por Clinton? ¿Usar una peluca hace que la gente vote por Trump?".

— Hugh el

"pero quién probará factores menores como [...]" , pero ese es el problema aquí. Si la respuesta es "porque es lo mejor que podemos hacer prácticamente / porque da la casualidad de que funciona / porque de lo contrario es costoso / etc.", Esa es una respuesta perfecta para la pregunta de "¿Por qué no están encuestando a 100.000 personas? ", pero no es realmente una respuesta a" ¿Cómo pueden ser estadísticamente justificables 1,000 personas? ". Es por eso que pregunto esto en Stats.SE en lugar de Politics.SE ... No me importa si más muestras no son prácticas; Mi pregunta es por qué la gente piensa que los métodos actuales están estadísticamente justificados.

— user541686

Sin embargo, las primeras oraciones en el último comentario parecen ser una respuesta razonable, si está diciendo que ese tipo de estudio se ha realizado a gran escala (~ cientos de miles, si no millones de personas) y que esa es la fundamento de nuestros supuestos. Si es así, creo que deberían agregarse a su respuesta ya que abordan el quid de mi pregunta (idealmente con algunas citas, aunque realmente no puedo ser demasiado exigente dado que es un poco tangente y esto no es Política. )

— user541686

Tienes razón en que probar factores menores es poco práctico pero matemáticamente relevante. Edité mi respuesta para dar algunas razones sobre por qué no nos preocupan los cientos de pequeños factores que influyen en el resultado. Estoy seguro de que puede encontrar investigaciones realizadas sobre la influencia del factor principal.

— Hugh