Resultados de las elecciones de Estados Unidos en 2016: ¿Qué salió mal con los modelos de predicción?

108

Primero fue Brexit , ahora las elecciones estadounidenses. Muchas predicciones de modelos se cumplieron por un amplio margen, y ¿hay lecciones que aprender aquí? Hasta las 4 pm PST de ayer, los mercados de apuestas seguían favoreciendo a Hillary 4 a 1.

Supongo que los mercados de apuestas, con dinero real en la línea, deberían actuar como un conjunto de todos los modelos de predicción disponibles. Por lo tanto, no es descabellado decir que estos modelos no hicieron un muy buen trabajo.

Vi una explicación: los votantes no estaban dispuestos a identificarse como partidarios de Trump. ¿Cómo podría un modelo incorporar efectos como ese?

Una explicación macro que leí es el surgimiento del populismo . La pregunta entonces es ¿cómo podría un modelo estadístico capturar una tendencia macro como esa?

¿Están estos modelos de predicción por ahí poniendo demasiado peso en los datos de las encuestas y el sentimiento, no lo suficiente desde el punto de vista del país en una visión de 100 años? Estoy citando los comentarios de un amigo.

predictive-models ensemble confounding

— horaceT
fuente

99

Cómo estimar la "falta de voluntad de identificarse como partidario de Trump". efecto: ¿Quizás grupos focales? Esto es más una cuestión de ciencias sociales que estadísticas per se.

— kjetil b halvorsen

100

¿Por qué los modelos tienen que estar equivocados solo porque predijeron un resultado que no sucedió? Tengo un modelo que dice que un dado probablemente no mostrará un seis, pero a veces muestra un seis de todos modos.

— dsaxton el

44

No estoy seguro de si los modelos realmente se inclinaron fuertemente en el lado equivocado. ¿Leíamos correctamente la salida de los modelos? También estoy de acuerdo con el comentario de dsaxton.

— Richard Hardy

77

Algunas buenas ideas en el blog de Andrew Gelman aquí .

— Richard Hardy

22

Si las probabilidades fueran 4: 1, el resultado menos común aún debería ocurrir con frecuencia. Ese es el mercado de apuestas bien podría haber estado en lo cierto.

— gung

57

En resumen, el sondeo no siempre es fácil. Esta elección puede haber sido la más difícil.

Cada vez que intentamos hacer inferencia estadística, una pregunta fundamental es si nuestra muestra es una buena representación de la población de interés. Una suposición típica que se requiere para muchos tipos de inferencia estadística es que nuestra muestra sea una muestra completamente aleatoria de la población de interés (y, a menudo, también necesitamos muestras para ser independientes). Si estas suposiciones son ciertas, generalmente tenemos buenas medidas de nuestra incertidumbre basadas en la teoría estadística.

¡Pero definitivamente no tenemos estos supuestos válidos para las encuestas! Tenemos exactamente 0 muestras de nuestra población de interés: votos reales emitidos en el día de las elecciones. En este caso, no podemos hacer ningún tipo de inferencia válida sin más suposiciones no comprobables sobre los datos. O al menos, no comprobable hasta después del día de las elecciones.

¿Nos rendimos por completo y decimos "50% -50%"? Típicamente no. Podemos intentar hacer lo que creemos que son suposiciones razonables sobre cómo se emitirán los votos. Por ejemplo, tal vez queremos creer que las encuestas son estimaciones imparciales para los votos del día de las elecciones, además de cierto ruido temporal imparcial (es decir, la evolución de la opinión pública a medida que pasa el tiempo). No soy un experto en métodos de votación, pero creo que este es el tipo de modelo que usa el 538. Y en 2012, funcionó bastante bien. Entonces, esas suposiciones probablemente eran bastante razonables. Desafortunadamente, no hay una forma real de evaluar esos supuestos, fuera del razonamiento estrictamente cualitativo. Para más discusión sobre un tema similar, vea el tema de la falta de ignorancia.

Mi teoría de por qué las encuestas tuvieron tan mal desempeño en 2016: las encuestas no eran estimaciones imparciales del comportamiento del día de los votantes. Es decir, supongo que los partidarios de Trump (y probablemente también los partidarios del Brexit) desconfiaron mucho más de los encuestadores. Recuerde que el Sr. Trump denunció activamente las encuestas. Como tal, creo que los partidarios de Trump tenían menos probabilidades de informar sus intenciones de voto a los encuestadores que los partidarios de sus oponentes. Supondría que esto causó un sesgo imprevisto en las encuestas.

¿Cómo podrían los analistas haber tenido esto en cuenta al utilizar los datos de la encuesta? Basándose solo en los datos de la encuesta, no hay una forma real de hacer esto de forma cuantitativa. Los datos de la encuesta no le dicen nada sobre aquellos que no participaron. Sin embargo, uno puede mejorar las encuestas de manera cualitativa, eligiendo suposiciones más razonables (pero no comprobables) sobre la relación entre los datos de las encuestas y el comportamiento del día de las elecciones. Esto no es trivial y la parte verdaderamente difícil de ser un buen encuestador (nota: no soy un encuestador). También tenga en cuenta que los resultados también fueron muy sorprendentes para los expertos, por lo que no es que haya signos obvios de que las suposiciones estaban descabelladas esta vez.

La votación puede ser difícil.

— Acantilado
fuente

1

@horaceT: ¿cómo sabrían que hubo sesgos hasta que obtuvieran muestras de la población de interés? Una de las arrugas aquí es que históricamente, supongo que este problema es uno de ruido en lugar de sesgo . Si ambas partes tienen niveles iguales de no respuesta, sus estimaciones serán imparciales, solo un poco más ruidosas. Pero dado que Trump realizó una campaña con puntos de vista muy negativos sobre la cobertura de los medios y las encuestas, mucho más que cualquier elección previa, la falta de respuesta podría haber sido fácilmente desproporcionada en la representación de los votos de Trump. Este sería un efecto que los encuestadores tendrían ...

— Cliff AB

38

Por lo que vale, todavía no creo que 538 realmente haya fallado. Le dio una probabilidad de ~ 30% (?) A que Trump ganara, lo cual es bastante bueno: significa que por cada 2-3 veces se esperaba que fuera correcto, se esperaba que fuera incorrecto 1 vez. Esa es una gran cantidad de incertidumbre, mucho más de lo que otras encuestas parecían estar dispuestas a admitir.

— Mehrdad

3

Este efecto es bien conocido: se llama efecto Bradley en los EE. UU. Y efecto Shy Tory en el Reino Unido.

— Emilio Pisanty

15

538 (y otras cosas como el PEC de Sam Wang) no son encuestas. Son modelos construidos a partir de resultados de encuestas. Todos estos modelos comenzaron básicamente con los mismos datos, pero 538 predijeron mucha más incertidumbre en los resultados por razones que Nate Silver discutió ampliamente antes de las elecciones. Esto significaba que la probabilidad de 538 de una victoria de Hillary era mucho menor a pesar de que usaba las mismas encuestas. Estoy de acuerdo en que 538 no falló: dada su aportación, una victoria de Hillary con mucha incertidumbre parece ser la mejor predicción incluso en retrospectiva.

— KAI

66

Leí por primera vez la predicción 538 final la mañana después de las elecciones, y en ella Nate Silver afirma claramente que un margen de error del 3% estaría bien en el rango habitual, y si observa su tabla de un margen de error del 3% a favor de Trump, se alinea bastante bien con lo que realmente sucedió.

— Xiong Chiamiov

35

Hay varias fuentes de error de sondeo:

Encuentras a algunas personas difíciles de alcanzar

Esto se corrige haciendo un análisis demográfico y luego corrigiendo su sesgo de muestreo. Si su análisis demográfico no refleja las cosas que hacen que las personas sean difíciles de alcanzar, esta corrección no repara el daño.
La gente miente

Puede usar tasas históricas a las que las personas mienten a los encuestadores para influir en su modelo. Como ejemplo, históricamente las personas afirman que van a votar a terceros mucho más de lo que realmente hacen el día de las elecciones. Sus correcciones pueden estar equivocadas aquí.

Estas mentiras también pueden arruinar tus otras correcciones; Si mienten sobre votar en las últimas elecciones, pueden ser contados como un votante probable, incluso si no lo son, por ejemplo.
Solo las personas que votan terminan contando

Alguien puede tener mucho apoyo, pero si sus seguidores no se presentan el día de las elecciones, no cuenta. Es por eso que tenemos modelos de votantes registrados, votantes probables, etc. Si estos modelos están mal, las cosas no funcionan.
Las encuestas cuestan dinero

Hacer encuestas es costoso, y si no espera (digamos) que Michigan se voltee, es posible que no lo haga con mucha frecuencia. Esto puede llevar a la sorpresa de que un estado que encuestó 3 semanas antes de las elecciones no se parece en nada el día de las elecciones.
La gente cambia de opinión

En minutos, horas, días, semanas o meses, las personas cambian de opinión. Las encuestas sobre "lo que harías ahora" no ayudan mucho si cambian de opinión antes de que cuente. Hay modelos que adivinan aproximadamente la velocidad a la que las personas cambian de opinión en base a encuestas históricas.
Pastoreo

Si todos los demás afirman que Hillary es +3 y obtienes una encuesta que muestra a Hillary +11 o Donald +1, puedes cuestionarlo. Puede hacer otra pasada y ver si hay un error de análisis. Incluso podría tirarlo y hacer otra encuesta. Cuando obtienes una encuesta de Hillary +2 o +4, es posible que no lo hagas. Los valores atípicos masivos, incluso si el modelo estadístico dice que sucede a veces, pueden hacer que se "vea mal".

Una forma particularmente desagradable de esto sucedió el día de las elecciones, donde todos los que lanzaron una encuesta convergieron mágicamente al mismo valor; probablemente fueron encuestas atípicas, pero nadie quiere ser el que dijo (digamos) Hillary +11 el día antes de estas elecciones. Estar equivocado en una manada te lastima menos.
Error de muestreo esperado

Si tiene 1 millón de personas y pregunta a 100 personas perfectamente aleatorias y la mitad dice "Apple" y la otra mitad dice "Naranja", el error esperado que obtendría de la muestra es +/- 10 más o menos, incluso si ninguno de los problemas anteriores ocurrir. Este último bit es lo que las encuestas describen como su margen de error. Las encuestas rara vez describen lo que los factores de corrección anteriores podrían introducir como error.

Nate Silver en 538 fue uno de los pocos agregadores de encuestas que utilizaron medios conservadores (cautelosos) para manejar la posibilidad de los tipos de errores anteriores. Tuvo en cuenta la posibilidad de errores sistémicos correlacionados en los modelos de encuestas.

Mientras que otros agregadores pronosticaban una probabilidad de más del 90% de HC, Nate Silver declaraba un 70%, porque las encuestas estaban dentro del "error de votación normal" de una victoria de Donald.

Esta fue una medida histórica del error del modelo , en oposición al error de muestreo estadístico sin procesar; ¿Qué pasa si el modelo y las correcciones al modelo estaban equivocados?

La gente todavía está crujiendo los números. Pero, los resultados preliminares indican que una gran parte fueron modelos de participación. Los partidarios de Donald aparecieron en las encuestas en mayor número, y los partidarios de Hillary en menores números que los modelos de encuestas (¡y las encuestas de salida!) Indicaron.

Los latinos votaron más por Donald de lo esperado. Los negros votaron más por Donald de lo esperado. (La mayoría de ambos votaron por Hillary). Las mujeres blancas votaron más por Donald de lo esperado (más de ellas votaron por Donald que Hillary, lo que no se esperaba).

La participación electoral fue baja en general. Los demócratas tienden a ganar cuando hay una alta participación de votantes, y los republicanos cuando hay poca.

— Yakk
fuente

1

Un interesante problema de participación es que la encuesta en sí misma influye en la participación. ¿Hay un modelo de participación para eso? Debería ser posible tener una función que tome la participación prevista de la encuesta y modificarla para ambos lados de acuerdo con la perspectiva del candidato. Un candidato muy por detrás puede no obtener votantes adicionales que estén más preocupados después de ver que la encuesta describe las perspectivas de sus candidatos como terribles, pero si su candidato está muy por delante, es posible que no trabaje tan duro para salir a votar ... Obviamente no es un función lineal, pero debe ser medible.

— BenPen

2

+1 de mi parte solo por mencionar el pastoreo y explicarlo bien. A medida que avanzaba en mi respuesta, sospechaba que podría estar ocurriendo el pastoreo a partir del 5 o más (3 días después de la elección) según el gráfico 538. Supongo que descubriremos más sobre cuáles fueron realmente los errores en los próximos días. (Sabes que eres un nerd cuando estás actualizando obsesivamente una página web para contemplar la segunda derivada de una curva gráfica allí).

— TED

No sé cómo lo explicas, pero creo que hay un estigma asociado con Trump que dificultaría cuantificar adecuadamente su apoyo real y solo aparecería en los resultados electorales reales. Me gusta pensar que es el corolario de la pegatina para el parachoques: George W. Bush y Obama fueron presidentes de dos períodos, pero si bien una pegatina para el parachoques de Obama está muy extendida y adornada en los automóviles con orgullo, una pegatina para el parachoques de Bush era como un trébol de 4 hojas. Hay ciertos candidatos donde el apoyo abierto atrae demasiado calor y vitriolo de la oposición y el apoyo es muy discreto.

— Coburne

3

@coburne No había evidencia de eso en las primarias; Los partidarios de Trump no fueron tímidos al respecto. Las calcomanías de Bush fueron populares en diferentes áreas que las calcomanías de Obama.

— Yakk

@coburne - De lo que estás hablando se llama The Bradley Effect . Existe un gran debate sobre si incluso existe. Sin embargo, hubo un estudio que supuestamente encontró que su poder era aproximadamente proporcional a la cantidad de retórica racialmente cargada que se usó en la campaña. No creo que haya mucho debate de que gran parte de eso se utilizó en este caso.

— TED

31

Esto se mencionó en los comentarios sobre la respuesta aceptada (hat-tip a Mehrdad ), pero creo que debe enfatizarse. 538 realmente hizo esto bastante bien este ciclo^* .

538 es un agregador de encuestas que ejecuta modelos contra cada estado para tratar de predecir el ganador. Su carrera final le dio a Trump un 30% de posibilidades de ganar. Eso significa que si usted realizó tres elecciones con datos como este, esperaría que el Equipo Rojo gane una de ellas. Esa no es realmente una pequeña oportunidad. Ciertamente, es lo suficientemente grande como para tomar precauciones (por ejemplo: el viernes antes de pedir el miércoles 9 en el trabajo, considerando la probabilidad de que esté lo suficientemente cerca como para llegar tarde en la noche).

Una cosa que 538 te dirá si pasas el rato allí es que si las encuestas están apagadas, hay una buena posibilidad de que todos estén en la misma dirección. Esto es por un par de razones.

Modelos de votantes probables. Las encuestas tienen que ajustarse a los tipos de votantes que realmente aparecerán el día de las elecciones. Tenemos modelos históricos, pero obviamente este no era el típico par de candidatos, por lo que la predicción basada en datos pasados siempre sería un poco difícil.
Elecciones finales de pastoreo . Nadie quiere ser la encuesta que arruinó más las elecciones. Entonces, aunque no les importa ser un caso atípico en medio de una campaña, al final todas las encuestas tienden a modificarse para que digan lo mismo. Esta es una de las cosas que se culpó de que las encuestas estuvieran tan atroces en la sorpresiva pérdida de Eric Cantor en 2014, y también por los resultados sorprendentemente cercanos de la carrera por el Senado de Virginia 2014 .

^{* - 538 ha publicado su propio análisis . Principalmente concuerda con lo que se dijo anteriormente, pero vale la pena leerlo si quieres muchos más detalles.}

Ahora un poco de especulación personal. En realidad, era escéptico sobre el% de posibilidades finales de 538 para sus últimos 3 días. La razón se remonta a la segunda viñeta anterior. Echemos un vistazo a la historia de su modelo para esta elección (desde su sitio web)

(Lamentablemente, las etiquetas lo ocultan, pero después de esto las curvas divergieron nuevamente durante los últimos tres días, con una probabilidad de más del 70% para Clinton)

El patrón que vemos aquí es una divergencia repetida seguida de una decadencia hacia una ventaja de Trump. Las burbujas de Clinton fueron causadas por eventos. El primero fueron las convenciones (normalmente hay un par de días de retraso después de un evento para que comience a aparecer en las encuestas). El segundo parece haber sido iniciado por el primer debate, probablemente ayudado por la cinta TMZ. Luego está el tercer punto de inflexión que he marcado en la imagen.

Sucedió el 5 de noviembre, 3 días antes de las elecciones. ¿Qué evento causó esto? Un par de días antes hubo otro ataque de correo electrónico, pero eso no debería haber funcionado a favor de Clinton.

La mejor explicación que se me ocurrió en ese momento fue el pastoreo de encuestas. Solo faltaban 3 días para las elecciones, 2 días para las encuestas finales, y los encuestadores comenzarían a preocuparse por sus resultados finales. La "sabiduría convencional" de toda esta elección (como lo demuestran los modelos de apuestas) fue una victoria fácil de Clinton. Así que parecía una clara posibilidad de que esto no fuera una verdadera inflexión en absoluto. Si ese fuera el caso, la verdadera curva del 5 de noviembre en adelante era muy probable una continuación de esta hacia la convergencia.

Se necesitaría un mejor matemático que yo para estimar la curva hacia adelante aquí sin este punto de inflexión final sospechoso, pero al mirarlo creo que el 8 de noviembre habría estado cerca del punto de cruce . Delante o detrás depende de cuánto de esa curva era realmente real.

Ahora no puedo decir con certeza que esto es lo que sucedió. Hay otras explicaciones muy plausibles (por ejemplo: Trump sacó a sus votantes mucho mejor de lo que cualquier encuestador esperaba). Pero era mi teoría de lo que estaba sucediendo en ese momento, y ciertamente resultó predictiva.

— TED
fuente

1

Creo que esta extraña inflexión de encuestas en los últimos días habría sido mejor analizada, pero los partidarios de Clinton vieron lo que querían ver, y los partidarios de Trump habían dejado de prestar atención a las encuestas hace mucho tiempo. Esperemos que alguien lo haga ahora.

— TED

Pensé que los últimos días se normalizaron ligeramente debido a la declaración de Comey de que los nuevos correos electrónicos no constituían motivo para una nueva investigación criminal.

— Konrad Rudolph

@KonradRudolph - Esa fue la explicación que escuché dada por esa inflexión en ese momento. El problema es que la declaración en cuestión no salió hasta el 6 de noviembre, y el punto de inflexión de sondeo sospechoso ocurrió un día antes (ver el marcador en la imagen de arriba). Además, el momento es incorrecto para que Comey explique por completo la caída, por lo que no hay ninguna razón lógica para que su declaración "no importa" lo hubiera detenido (y mucho menos lo haya cambiado).

— TED

2

El problema con 538 no es tanto su modelo como la calidad de los datos de las encuestas que ingresaron. Los datos dejan en claro que este no fue un caso de error de muestreo (que es bastante pequeño cuando se promedian encuestas que tienen tamaños de muestra decentes). washparkprophet.blogspot.com/2016/11/what-polls-got-wrong.html En cambio, el problema es el muestreo sesgado en la mayor parte de las encuestas, o la falta de veracidad sistémica de los encuestados (debido a la desaprobación social de Trump) o ambos. Pero 538 recibe elogios por reconocer en su modelo que las encuestas en diferentes estados no son independientes.

— ohwilleke

@ohwilleke - Correcto. Como dijo una de las otras respuestas, GIGO. Eso es lo que supuse que probablemente sucedería con ese extraño punto de inflexión inexplicable. La pregunta es la fuente de la "basura" en las encuestas de entrada.

— TED

17

Primero fue Brexit, ahora las elecciones estadounidenses

Realmente no es el primero, por ejemplo, las elecciones presidenciales francesas de 2002 "llevaron a discusiones serias sobre las técnicas de votación".

Por lo tanto, no es descabellado decir que estos modelos no hicieron un muy buen trabajo.

Basura dentro basura fuera.

Vi una explicación: los votantes no estaban dispuestos a identificarse como partidarios de Trump. ¿Cómo podría un modelo incorporar efectos como ese?

Ver sesgo de respuesta , y en particular sesgo de deseabilidad social . Otras lecturas interesantes: mayoría silenciosa y efecto Bradley .

— Franck Dernoncourt
fuente

2

Claro, basura en la basura. Pero, ¿cómo se reconoce que los predictores eran basura, y se hace una "selección variable" para evitarlos?

— horaceT

66

@horaceT como puede ver, esto es muy difícil y a veces podría ser imposible. FiveThirtyEight.com tenía una metodología muy decente y un modelo de alta calidad, utilizando diversos datos y corrigiendo sesgos múltiples. El día antes de las elecciones dio un 71,4% de probabilidad de que Hilary Clinton gane ...

— Tim

1

@horaceT Me centraría en la recopilación de datos, ya que ese parece ser el problema. La página de sesgo de deseabilidad social contiene algunas ideas para mejorarla.

— Franck Dernoncourt el

1

@horaceT además, si casi todos los grupos dijeran que Clinton lidera solo un loco argumentaría que todos están equivocados ... Sería muy difícil justificar tal modelo.

— Tim

1

Me gustaría saber cuán precisas fueron las predicciones de las encuestas para la participación electoral (por ejemplo, según la demografía). Me imagino que si muchas encuestas predicen una "ventaja significativa", la participación podría ser suprimida (por ejemplo, similar a un efecto de observación )?

— GeoMatt22

12

La encuesta de USC / LA Times tiene algunas cifras precisas. Predijeron que Trump estaría a la cabeza. Vea La encuesta de USC / LA Times vio lo que otras encuestas se perdieron: una ola de apoyo de Trump

http://www.latimes.com/politics/la-na-pol-usc-latimes-poll-20161108-story.html

Tenían números precisos para 2012 también.

Es posible que desee revisar: http://graphics.latimes.com/usc-presidential-poll-dashboard/

Y NY Times se quejó de su ponderación: http://www.nytimes.com/2016/10/13/upshot/how-one-19-year-old-illinois-man-is-distorting-national-polling-averages. html

Respuesta de LA Times: http://www.latimes.com/politics/la-na-pol-daybreak-poll-questions-20161013-snap-story.html

— Jon
fuente

26

En esta encuesta, Trump ganó el voto popular en un 3,2%, pero Clinton parece haber ganado un 0,1%. Así que no veo cómo puedes decir que tenían números precisos.

— Winston Ewert

3

Solo una pequeña nota: ¿realmente esperaría que cualquier estadística esté dentro de menos del 3.2% de una ventana de error?

— AnoE

99

Los problemas con esta encuesta como ejemplo son 1) Sondear lo incorrecto. El voto popular se correlaciona con ganar la Presidencia, pero no es así como se decidió. 2) Se equivocó la línea superior . Clinton ganó lo que está midiendo, no Trump. 3) Estaba apagado por los mismos 3 puntos de la mayoría de las otras encuestas, solo en una dirección diferente.

— TED

55

... en realidad, parece que Clinton puede terminar aproximadamente un punto por delante de Trump en la votación popular, lo que significa que esta encuesta fue cancelada por 4, no por 3. Entonces, en teoría, una encuesta similar que la hizo ganar por 3 puntos habría tenido sido dos veces más preciso que este (solo por 2 puntos en lugar de 4).

— TED

8

La encuesta del LA Times fue correcta por accidente : el sobrepeso de 19 años contrarrestó el voto rural blanco subestimado.

— Mark

11

No hay terreno elevado reclamado aquí. Trabajo en un campo (Monitoreo y Evaluación) que está tan plagado de pseudociencia como cualquier otra ciencia social que puedas nombrar.

Pero aquí está el trato, la industria de las encuestas está supuestamente en "crisis" hoy porque tiene las predicciones electorales de Estados Unidos tan equivocadas, que las ciencias sociales en general tienen una "crisis" replicable y a fines de la década de 2000 tuvimos una "crisis" financiera mundial porque Algunos profesionales creían que los derivados de hipotecas de alto riesgo eran una forma válida de datos financieros (si les damos el beneficio de la duda ...).

Y todos nos equivocamos independientemente. Todos los días veo las construcciones de los investigadores más cuestionables utilizadas como enfoques de recopilación de datos y, por lo tanto, eventualmente utilizadas como datos (todo, desde escalas cuasi-ordinales hasta categorías de respuesta fija totalmente líderes). Muy pocos investigadores parecen darse cuenta de que necesitan tener un marco conceptual para tales construcciones antes de que puedan esperar comprender sus resultados. Es como si hubiéramos analizado los enfoques de 'investigación' de mercado y decidido adoptar solo el peor de sus errores, con la adición de una pequeña numerología al lado.

Queremos ser considerados 'científicos', pero el rigor es demasiado difícil de molestar, por lo que recopilamos datos de basura y rezamos al dios de las estadísticas como Loki para que mágicamente anule el axioma de GIGO.

Pero como señala fuertemente el Sr. Feynman:

“No importa cuán bella sea tu teoría, no importa cuán inteligente seas. Si no está de acuerdo con el experimento, está mal ”.

Hay mejores formas de manejar los datos cualitativos con los que a menudo estamos atascados, pero requieren un poco más de trabajo y esas buenas construcciones de investigadores a menudo son mucho más fáciles de alimentar en SPSS. La conveniencia parece triunfar sobre la ciencia cada vez (sin juego de palabras).

En resumen, si no comenzamos a tomarnos en serio la calidad de los datos sin procesar, creo que solo estamos desperdiciando el tiempo y el dinero de todos, incluido el nuestro. Entonces, ¿alguien quiere colaborar en una 'iniciativa de calidad de datos' en relación con los métodos de las ciencias sociales (sí, hay mucho en los libros de texto sobre tales cosas, pero nadie parece prestar atención a esa fuente después de sus exámenes)

¡Quien tenga la mayor seriedad académica será el líder! (No seré yo)

Solo para ser claro acerca de mi respuesta aquí: veo problemas fundamentales serios con los tipos de datos brutos 'artificiales' tan a menudo, que me gustaría sugerir la necesidad de comenzar desde el principio. Por lo tanto, incluso antes de preocuparnos por el muestreo o qué pruebas ejecutar en los datos, debemos analizar la validez / limitaciones de los tipos de datos que recopilamos en relación con los modelos que proponemos. De lo contrario, el modelo predictivo general está incompletamente definido.

— colin
fuente

2

Llevado lejos, estoy seguro, ¿puede dar ejemplos de las construcciones cuestionables del investigador?

— horaceT

44

No estoy necesariamente en desacuerdo con muchos de tus puntos. Pero solo quiero señalar que, en el caso de las encuestas, creo que cada encuestador es extremadamente consciente de las limitaciones debido a la calidad de los datos, pero en realidad no tengo ninguna opción para mejorarla (vea mi respuesta). Su respuesta parece sugerir que los encuestadores quieren sacar cualquier respuesta, sin preocuparse en absoluto por la calidad de los datos. Creo que los encuestadores se preocupan mucho por la calidad de los datos, pero también se dan cuenta de que lo mejor que pueden obtener tiene serias fallas potenciales. ¿Te rindes ("50% -50%!") O intentas construir algo que pueda ser razonable?

— Cliff AB

mi respuesta a los comentarios fue necesariamente un poco larga, así que la agregué como una nueva respuesta

— colin el

9

Las encuestas tienden a tener un margen de error del 5% del que realmente no puede deshacerse, porque no es un error aleatorio, sino un sesgo. Incluso si promedia en muchas encuestas, no mejora mucho. Esto tiene que ver con grupos de votantes mal representados, falta de movilización, incapacidad para ir a votar en un día laboral, falta de voluntad para responder, falta de respuesta correcta , decisiones espontáneas de último minuto, ... porque este sesgo tiende a estar "correlacionado" en todas las encuestas, no puedes deshacerte de él con más encuestas; tampoco puede deshacerse de él con muestras de mayor tamaño; y tampoco parece ser capaz de predecir este sesgo, porque cambia demasiado rápido (y elegimos presidentes muy raramente).

Debido al estúpido principio del ganador se lleva todo en casi todos los estados, un error del 5% puede causar resultados muy diferentes: suponga que las encuestas siempre predijeron 49-51, pero el resultado real fue 51-49 (entonces un error de solo 2%), el resultado es 100% de descuento; por el ganador se lo lleva todo.

Si observa estados individuales, la mayoría de los resultados se encuentran dentro de los márgenes de error previstos.

Probablemente lo mejor que puede hacer es probar este sesgo (+ -5%), aplicar los extremos del ganador se lleva todo y luego agregar los resultados. Esto es probablemente similar a lo que hizo 538; y en el 30% de las muestras que ganó Donald Trump ...

— Anony-Mousse
fuente

99

Llamo a esto el "principio marginal loco" de las encuestas: en cualquier pregunta de la encuesta, el 5% de todos los encuestados dará una respuesta loca. Al igual que cualquier principio empírico, tiene excepciones, pero se ha mantenido bien durante décadas para ayudar a dar sentido a los resultados de las encuestas.

— whuber

1

Si sólo eran simplemente una respuesta "loco". El problema es que es sistemático, no "loco al azar". Podría considerar la elección como una encuesta binaria, y ¿qué "respuestas locas" podría esperar en binario? Pero aparentemente, mucha gente deliberadamente (?) Da una respuesta incorrecta, o decide de manera diferente cuando realmente está en el stand, o luego no va a las elecciones, ...

— Anony-Mousse

3

@ Anony-Mousse, no importa cuán preciso sea o no, no veo cómo los insultos juveniles son relevantes para el análisis estadístico.

— Jared Smith

Oh, es una historia invaluable. En algunos días, debes reír, en lugar de preocuparte por qué los resultados de la predicción son inexactos.

— Anony-Mousse

Los comentarios no son para discusión extendida; Esta conversación se ha movido al chat .

— Gung

7

$\small 400,000$

Al final, expuso un fracaso colosal del análisis numérico para compensar la falta de conocimiento del tema. La gente se avergonzaba de sí misma al abrazar explícitamente al candidato ganador por razones obvias.

El peor modelo de computadora podría haberse acercado al resultado si alguien se hubiera molestado en realizar una encuesta preliminar cara a cara, tocando puertas. Aquí hay un ejemplo: el Grupo Trafalgar (sin afiliación o conocimiento aparte de lo que sigue) tenía a Trump liderando en PA, FL, MI, GA, UT y NV (este último estado finalmente se volvió azul) un día antes de las elecciones. ¿Cuál fue la magia?

una combinación de encuestados que respondieron tanto a una prueba de votación estándar como a una prueba de votación que indica [sic] dónde se encuentran los vecinos del encuestado. Esto aborda el sesgo subyacente de las encuestas tradicionales, en el que los encuestados no son completamente sinceros sobre su posición con respecto a los candidatos altamente controvertidos.

Bastante baja tecnología, incluida la falta de corrección ortográfica, que muestra en números mucho sobre la naturaleza humana. Aquí está la discrepancia en PA :

Pensilvania histórica: lejos de ser percibida como la gota que colmó el vaso en la derrota demócrata solo unas horas antes de esta realización de cierre a las 1:40 am del 9 de noviembre de 2016:

— Antoni Parellada
fuente

2

Preguntar acerca de la intención de voto de los vecinos es brillante: me parece uno de esos trucos inteligentes que a veces se usan en las estadísticas, que permiten corregir (al menos hasta cierto punto) un sesgo aparentemente inútil. ¡Gracias por escribir sobre eso, muy interesante!

— DeltaIV

5

Una de las razones de la escasez de encuestas en las elecciones de Estados Unidos, además de que algunas personas, por cualquier motivo, no dicen la verdad, es que el efecto "el ganador se lo lleva todo" hace que las predicciones sean aún menos fáciles. Una diferencia del 1% en un estado puede conducir a un cambio completo de un estado e influir mucho en el resultado completo. Hillary tenía más votantes como Al Gore vs Bush.

El referéndum sobre el Brexit no fue una elección normal y, por lo tanto, también fue más difícil de predecir (no hay buenos datos históricos y todos fueron como un votante por primera vez en este asunto). Las personas que durante décadas votan por el mismo partido estabilizan las predicciones.

— Sascha
fuente

2

Muy buena observación. Había estados claros para cada lado y estados de oscilación. Si bien su número fue bajo, el efecto en un pequeño cambio allí es grande en número de votos. Es un esquema de votación muy intrincado e históricamente desarrollado en los Estados Unidos.

— Trilarion

4

(Solo respondo esta parte, ya que las otras respuestas parecen haber cubierto todo lo demás).

Hasta las 4 pm PST de ayer, los mercados de apuestas seguían favoreciendo a Hillary de 4 a 1. Supongo que los mercados de apuestas, con dinero real en la línea, deberían actuar como un conjunto de todos los modelos de predicción disponibles.

No ... pero indirectamente sí.

Los mercados de apuestas están diseñados para que los corredores de apuestas obtengan ganancias pase lo que pase. Por ejemplo, digamos que las probabilidades actuales citadas fueron 1-4 en Hilary y 3-1 en Trump. Si las siguientes diez personas apuestan $ 10 en Hilary, entonces los $ 100 que ingresen les costarán $ 25 si Hilary gana. Entonces acortan a Hilary a 1-5 y elevan a Trump a 4-1. Más personas ahora apuestan por Trump y se restablece el equilibrio. Es decir, se basa únicamente en cómo las personas apuestan, no en los expertos o los modelos de predicción.

Pero, por supuesto, los clientes de las casas de apuestas están mirando esas encuestas y escuchando a esos expertos. Escuchan que Hilary tiene un 3% de ventaja, un certificado muerto para ganar, y deciden que una forma rápida de ganar $ 10 es apostar $ 40 en ella.

Indirectamente, los expertos y las encuestas están moviendo las probabilidades.

(Algunas personas también notan que todos sus amigos en el trabajo van a votar a Trump, así que apuesta por él; otros notan que todas las publicaciones de sus amigos de Facebook son pro-Hilary, así que apuesta por ella, por lo que influye un poco la realidad ellos, de esa manera.)

— Darren Cook
fuente

2

No es sorprendente que estos esfuerzos fracasaron, si se considera la disparidad entre a qué información tienen acceso los modelos y qué información impulsa el comportamiento en la cabina de votación. Estoy especulando, pero los modelos probablemente tengan en cuenta:

una variedad de resultados de encuestas preelectorales
inclinaciones históricas del estado (azul / rojo)
resultados históricos de elecciones previas con inclinaciones / proyecciones estatales actuales

Pero, las encuestas preelectorales no son confiables (hemos visto fallas constantes en el pasado), los estados pueden cambiar, y no ha habido suficientes ciclos electorales en nuestra historia para dar cuenta de la multitud de situaciones que pueden surgir, y lo hacen. .

Otra complicación es la confluencia del voto popular con el colegio electoral. Como vimos en estas elecciones, el voto popular puede ser extremadamente cercano dentro de un estado, pero una vez que se gana el estado, todos los votos van a un candidato, por lo que el mapa tiene tanto rojo.

— HEITZ
fuente

1

Los modelos de votación no consideraron cuántos libertarios podrían cambiar de Johnson a Trump en lo que respecta a la votación real. Los estados que se ganaron por un margen delgado se ganaron según el porcentaje del voto que obtuvo Johnson. PA (que superó a Trump más allá de 270 en la noche de las elecciones) le dio solo el 2% a Johnson. NH (que fue a Clinton) dio 4% + a Johnson. Johnson estaba votando al 4% -5% el día antes de las elecciones y obtuvo aproximadamente el 3% el día de las elecciones.

Entonces, ¿por qué los libertarios, de repente, cambiaron el día de las elecciones? Nadie consideró cuál era el tema central para los votantes libertarios. Tienden a ver la interpretación literal de la Constitución como canon. La mayoría de las personas que votaron por Clinton no pensaron que su desdén por la ley fuera una prioridad lo suficientemente alta como para considerarla. Ciertamente, no más alto que todo lo que no les gustó de Trump.

Independientemente de si sus problemas legales eran importantes o no para los demás, serían importantes para los libertarios. Pondrían una prioridad muy alta en mantener fuera de la oficina a alguien que considerara el cumplimiento legal como opcional, en el mejor de los casos. Entonces, para un gran número de ellos, mantener a Clinton fuera del cargo se convertiría en una prioridad más alta que hacer una declaración de que la filosofía libertaria es una filosofía política viable.

Puede que a muchos de ellos ni siquiera les haya gustado Trump, pero si pensaran que él sería más respetuoso con el estado de derecho que Clinton, el pragmatismo se habría ganado los principios de muchos de ellos y les habría hecho cambiar de voto cuando llegó el momento de votar realmente.

— Dmitry Rubanovich
fuente

NH tiene a toda la gente del proyecto estatal libre viviendo allí. Próspero partido libertario y partidarios activos.

— John

@ John, NH Libertarios se quedaron con Johnson (4%). Trump perdió el estado en un 1%.

— Dmitry Rubanovich

Entiendo que. Estaba tratando de explicar que el partido libertario es fuerte en NH.

— John

@John, pero no es solo NH. Minnesota: Johnson 4%, Trump perdió un 2%; NV (un argumento más difícil de hacer, pero la tendencia sigue vigente): Johnson 3.5%, Trump perdió un 2%; Maine: Johnson 5%, Trump perdió un 3%; Colorado Johnson 5%, Trump perdió un 3%.

— Dmitry Rubanovich

Afaik, las encuestas preguntan sobre el posible cambio de voto y las previsiones lo tienen en cuenta. ¿Tiene alguna información que sugiera que antes de las elecciones hubo alguna información que no fue tomada en consideración por ningún pronóstico o es pura especulación?

— Tim

1

Las encuestas no son tendencias históricas. Un bayesiano preguntaría sobre las tendencias históricas. Desde Abraham Lincoln, ha habido un partido republicano y un partido demócrata ocupando el cargo presidencial. La tendencia para el cambio de partido 16 veces desde entonces desde Wikipedia tiene la siguiente función de masa acumulativa

$x$

Lo que hizo que los periodistas, el partido demócrata y los encuestadores pensaran que las probabilidades estaban a favor de que los liberales ganaran fue quizás una ilusión. El comportamiento puede ser predecible, dentro de los límites, pero en este caso los demócratas deseaban que la gente no votara por un cambio, y desde una perspectiva histórica, parece más probable que haya uno.

— Carl
fuente

0

Creo que los resultados de la encuesta se extrapolaron en la medida en que el público asumió que la demografía de los votantes sería similar a la demografía de los encuestados y sería una buena representación de toda la población. Por ejemplo, si 7 de cada 10 minorías apoyaron a Hillary en las encuestas, y si esa minoría representa el 30% de la población de los EE. UU., La mayoría de las encuestas asumieron que el 30% de los votantes estarán representados por esa minoría y se traducirán en esa ganancia del 21% para Hillary En realidad, los varones blancos de clase media a alta estaban mejor representados entre los votantes. Menos del 50% de las personas elegibles votaron y esto no se tradujo en un 50% de descuento en todos los géneros, razas, etc.

O, las encuestas asumieron una aleatorización perfecta y basaron sus modelos en eso, pero en realidad los datos de los votantes estaban sesgados hacia los hombres mayores de clase media a alta.

O, las encuestas no suponían exactamente una aleatorización perfecta, pero sus parámetros de extrapolación subestimaban la heterogeneidad de la demografía de los votantes.

ETA: Las encuestas de las dos elecciones anteriores tuvieron un mejor desempeño debido a una mayor atención a la votación por parte de grupos que generalmente no están bien representados.

— brian
fuente

Hasta donde yo sé, todas las encuestas basan sus predicciones en "probables votantes". No puedo imaginar encuestas que supongan que un joven de 20 años tiene la misma oportunidad de votar que un joven de 70 años. Parece más central el problema: ¿qué posibilidades hay de que alguien vote?

— dimpol

La contabilidad de la demografía es la parte más fácil. Simplemente reponga su población de muestra a la población real. Sin embargo, tener en cuenta la participación electoral y los prejuicios mencionados en las otras respuestas es mucho más difícil.

— Graipher

Existe una gran cantidad de variedad en cómo los encuestadores abordan estos problemas. Algunos reequilibran demográficamente o reequilibran según la afiliación del partido, otros no. Pero, dado que existe una variación en los modelos que usan promedios de encuestas, el resultado final debería ser sólido para los problemas específicos de un método para hacer esto que no es compartido por otras encuestas, particularmente después de controlar sesgos partidistas históricos (es decir, efectos de la casa) de operaciones de votación. Los problemas en los resultados promedio de las encuestas deben provenir de métodos o efectos compartidos, no de métodos particulares de cada encuesta.

— ohwilleke

0

HoraceT y CliffAB (perdón por los comentarios) Me temo que tengo toda una vida de ejemplos, que también me han enseñado que debo tener mucho cuidado con su explicación, si deseo evitar ofender a las personas. Entonces, aunque no quiero tu indulgencia, te pido paciencia. Aquí va:

Para comenzar con un ejemplo extremo, una vez vi una pregunta de encuesta propuesta que pedía a los granjeros analfabetos de las aldeas (Sudeste de Asia) que calculen su "tasa de rendimiento económico". Dejando a un lado las opciones de respuesta por ahora, es de esperar que todos veamos que esto es algo estúpido, pero explicar constantemente por qué es estúpido no es tan fácil. Sí, simplemente podemos decir que es estúpido porque el encuestado no entenderá la pregunta y simplemente la descartará como un problema semántico. Pero esto realmente no es lo suficientemente bueno en un contexto de investigación. El hecho de que esta pregunta haya sido sugerida alguna vez implica que los investigadores tienen una variabilidad inherente a lo que consideran 'estúpido'. Para abordar esto de manera más objetiva, debemos dar un paso atrás y declarar de manera transparente un marco relevante para la toma de decisiones sobre tales cosas. Hay muchas de esas opciones,

Entonces, supongamos de manera transparente que tenemos dos tipos de información básica que podemos usar en los análisis: cualitativa y cuantitativa. Y que los dos están relacionados por un proceso transformador, de modo que toda la información cuantitativa comenzó como información cualitativa pero pasó por los siguientes pasos (simplificados):

Configuración de la convención (por ejemplo, todos decidimos que [independientemente de cómo lo percibamos individualmente], que todos llamaremos "azul" al color de un cielo abierto durante el día).
Clasificación (por ejemplo, evaluamos todo en una habitación según esta convención y separamos todos los elementos en categorías 'azules' o 'no azules')
Cuenta (contamos / detectamos la 'cantidad' de cosas azules en la habitación)

Tenga en cuenta que (bajo este modelo) sin el paso 1, no existe una cualidad y si no comienza con el paso 1, nunca podrá generar una cantidad significativa.

Una vez declarado, todo esto parece muy obvio, pero son tales conjuntos de primeros principios que (creo) se pasan por alto con mayor frecuencia y, por lo tanto, resultan en 'Basura'.

Por lo tanto, la 'estupidez' en el ejemplo anterior se vuelve muy claramente definible como un fracaso para establecer una convención común entre el investigador y los encuestados. Por supuesto, este es un ejemplo extremo, pero los errores mucho más sutiles pueden generar la misma basura. Otro ejemplo que he visto es una encuesta a los agricultores en las zonas rurales de Somalia, que preguntaba "¿Cómo ha afectado el cambio climático a sus medios de vida?". Estados Unidos constituiría una grave falla en el uso de una convención común entre el investigador y el encuestado (es decir, lo que se mide como "cambio climático").

Ahora pasemos a las opciones de respuesta. Al permitir a los encuestados auto-codificar respuestas de un conjunto de opciones de opción múltiple o una construcción similar, también está empujando esta cuestión de 'convención' en este aspecto de las preguntas. Esto puede estar bien si todos nos adherimos a convenciones efectivamente 'universales' en las categorías de respuesta (por ejemplo, pregunta: ¿en qué ciudad vive? Categorías de respuesta: lista de todas las ciudades en el área de investigación [más 'no en esta área']). Sin embargo, muchos investigadores parecen estar orgullosos de los sutiles matices de sus preguntas y categorías de respuesta para satisfacer sus necesidades. En la misma encuesta en la que apareció la pregunta de 'tasa de rendimiento económico', el investigador también solicitó a los encuestados (aldeanos pobres) que indicaran a qué sector económico contribuyeron: con categorías de respuesta de 'producción', 'servicio', 'fabricación' y 'comercialización'. Nuevamente, aquí surge un problema de convención cualitativa. Sin embargo, debido a que hizo las respuestas mutuamente excluyentes, de modo que los encuestados solo podían elegir una opción (porque "es más fácil alimentar a SPSS de esa manera"), y los agricultores de las aldeas producen cultivos, venden su trabajo, fabrican artesanías y llevan todo a En los mercados locales, este investigador en particular no solo tenía un problema de convención con sus encuestados, sino que tenía uno con la realidad misma.

Esta es la razón por la cual los viejos aburridos como yo siempre recomendarán el enfoque más intensivo en el trabajo de aplicar la codificación a la recolección posterior de datos, ya que al menos puede capacitar adecuadamente a los codificadores en convenciones controladas por investigadores (y tenga en cuenta que tratar de impartir tales convenciones a los encuestados en ' instrucciones de la encuesta 'es un juego de tazas, solo confía en mí en este por ahora También tenga en cuenta también que si acepta el "modelo de información" anterior (que, una vez más, no estoy afirmando que tenga que hacerlo), también muestra por qué las escalas de respuesta cuasi ordinales tienen una mala reputación. No se trata solo de los problemas matemáticos básicos según la convención de Steven (es decir, debe definir un origen significativo incluso para los ordinales, no puede agregarlos y promediarlos, etc., etc.), también es que a menudo nunca han pasado por ningún proceso transformador declarado de manera transparente y lógicamente consistente que equivaldría a 'cuantificación' (es decir, una versión extendida del modelo utilizado anteriormente que también abarca la generación de 'cantidades ordinales' [-esto no es difícil que hacer]). De todos modos, si no cumple con los requisitos de ser información cualitativa o cuantitativa, entonces el investigador afirma haber descubierto un nuevo tipo de información fuera del marco y, por lo tanto, corresponde a ellos explicar completamente su base conceptual fundamental ( es decir, definir de manera transparente un nuevo marco).

Finalmente, veamos los problemas de muestreo (y creo que esto se alinea con algunas de las otras respuestas que ya están aquí). Por ejemplo, si un investigador desea aplicar una convención de lo que constituye un votante "liberal", debe asegurarse de que la información demográfica que utiliza para elegir su régimen de muestreo sea coherente con esta convención. Este nivel suele ser el más fácil de identificar y manejar, ya que está en gran medida bajo el control del investigador y con mayor frecuencia es el tipo de convención cualitativa asumida que se declara de manera transparente en la investigación. Esta es también la razón por la cual es el nivel generalmente discutido o criticado, mientras que los temas más fundamentales no se abordan.

Entonces, si bien los encuestadores se adhieren a preguntas como "¿por quién planea votar en este momento?", Probablemente todavía estamos bien, pero muchos de ellos quieren ser mucho más "elegantes" que esto ...

— colin
fuente