En el libro de Nate Silver, The Signal and the Noise , escribe lo siguiente, que puede proporcionar una idea de su pregunta:
Una de las pruebas más importantes de un pronóstico, diría que es la más importante, se llama calibración. De todas las veces que dijiste que había un 40% de probabilidad de lluvia, ¿con qué frecuencia realmente llovió? Si, a la larga, realmente llovió alrededor del 40% del tiempo, eso significa que sus pronósticos estaban bien calibrados. Si terminó lloviendo solo el 20 por ciento de las veces, o el 60 por ciento de las veces, no lo fueron.
Entonces esto plantea algunos puntos. En primer lugar, como señala correctamente, realmente no puede hacer ninguna inferencia sobre la calidad de un pronóstico individual por el resultado del evento que pronostica. Lo mejor que puede hacer es ver cómo funciona su modelo en el transcurso de muchas predicciones.
Otra cosa en la que es importante pensar es que las predicciones que proporciona Nate Silver no son un evento en sí, sino la distribución de probabilidad del evento. Entonces, en el caso de la carrera presidencial, está estimando la distribución de probabilidad de que Clinton, Trump o Johnson ganen la carrera. Entonces, en este caso, está estimando una distribución multinomial.
Pero en realidad está prediciendo la carrera a un nivel mucho más granular. Sus predicciones estiman las distribuciones de probabilidad del porcentaje de votos que cada candidato obtendrá en cada estado. Entonces, si consideramos 3 candidatos, esto podría caracterizarse por un vector aleatorio de longitud 51 * 3 y tomar valores en el intervalo [0, 1], sujeto a la restricción de que las proporciones suman 1 para las proporciones dentro de un estado. El número 51 se debe a que otros son 50 estados + DC (y de hecho creo que en realidad son unos pocos más porque algunos estados pueden dividir sus votos electorales en la universidad), y el número 3 se debe a la cantidad de candidatos.
Ahora no tiene muchos datos para evaluar sus predicciones: solo ha proporcionado predicciones para las últimas 3 elecciones de las que tengo conocimiento (¿hubo más?). Por lo tanto, no creo que haya ninguna manera de evaluar su modelo de manera justa, a menos que realmente tenga el modelo a mano y pueda evaluarlo utilizando datos simulados. Pero todavía hay algunas cosas interesantes que podrías mirar. Por ejemplo, creo que sería interesante observar con qué precisión predijo las proporciones de votación estado por estado en un momento determinado, por ejemplo, una semana después de las elecciones. Si repite esto para varios puntos de tiempo, por ejemplo, una semana, un mes, 6 meses y un año, podría proporcionar una exposición bastante interesante para sus predicciones. Una advertencia importante: los resultados están altamente correlacionados en todos los estados dentro de una elección, por lo que realmente no puede decir que tiene 51 estados * 3 elecciones independientes de predicciones (es decir, si el modelo subestima el desempeño de los candidatos en un estado, también tenderá a subestimarse en otros estados) . Pero tal vez lo pensaría así de todos modos solo para que tenga suficientes datos para hacer algo significativo.