Cualquiera que siga el béisbol probablemente haya escuchado sobre el desempeño inesperado del tipo MVP del José Bautista de Toronto. En los cuatro años anteriores, bateó aproximadamente 15 jonrones por temporada. El año pasado llegó a 54, un número superado por solo 12 jugadores en la historia del béisbol.
En 2010 le pagaron 2.4 millones y le está pidiendo al equipo 10.5 millones para 2011. Están ofreciendo 7.6 millones. Si puede repetir eso en 2011, valdrá fácilmente cualquier cantidad. ¿Pero cuáles son las probabilidades de que él repita? ¿Qué tan difícil podemos esperar que retroceda a la media? ¿Cuánto de su desempeño podemos esperar se debió al azar? ¿Qué podemos esperar de sus totales ajustados de regresión a la media de 2010? ¿Cómo lo resuelvo?
He estado jugando con la Base de Datos de Béisbol de Lahman y exprimí una consulta que devuelve los totales de jonrones para todos los jugadores en las cinco temporadas anteriores que han tenido al menos 50 turnos al bate por temporada.
La tabla se ve así (observe a José Bautista en la fila 10)
first last hr_2006 hr_2007 hr_2008 hr_2009 hr_2010
1 Bobby Abreu 15 16 20 15 20
2 Garret Anderson 17 16 15 13 2
3 Bronson Arroyo 2 1 1 0 1
4 Garrett Atkins 29 25 21 9 1
5 Brad Ausmus 2 3 3 1 0
6 Jeff Baker 5 4 12 4 4
7 Rod Barajas 11 4 11 19 17
8 Josh Bard 9 5 1 6 3
9 Jason Bartlett 2 5 1 14 4
10 Jose Bautista 16 15 15 13 54
y el resultado completo (232 filas) está disponible aquí .
Realmente no sé por dónde empezar. ¿Alguien puede señalarme en la dirección correcta? Alguna teoría relevante y comandos R serían especialmente útiles.
Gracias amablemente
Tommy
Nota: El ejemplo es un poco artificial. Los jonrones definitivamente no son el mejor indicador del valor de un jugador, y los totales de jonrones no tienen en cuenta el número variable de posibilidades por temporada de que un bateador tenga la oportunidad de batear jonrones (apariciones en el plato). Tampoco refleja que algunos jugadores juegan en estadios más favorables, y que los jonrones promedio de la liga cambian año tras año. Etc. Etc. Si puedo comprender la teoría detrás de la contabilidad de la regresión a la media, puedo usarla en medidas más adecuadas que los recursos humanos.