Aquí hay un análisis rápido y sucio basado en la base de datos PGN "Million Base". Hice esto con un poco de prisa, por lo que puede haber errores en mi programación o lógica. Por favor, no lo use para nada demasiado serio. Actualización - Nota: En realidad, acabo de notar que cometí un error con el conjunto de datos y lo limité a los primeros 1 millón de registros. Publicaré una actualización cuando tenga algo de tiempo libre para ejecutarla nuevamente en todo. Mientras tanto, estos números deberían ser interesantes, sin embargo.
Obteniendo los datos:
Obtuve el archivo Million Base 1.74 de esta URL , ya que el sitio top-5000.nl parece 404 cuando realmente intentas descargarlo. El archivo contiene poco más de 1 millón de juegos en formato de exportación PGN (es decir, fácil de analizar).
Desafortunadamente, más del 60% de los juegos carecían de información de calificación (estaba buscando etiquetas "WhiteELO" y "BlackELO"), y aún menos tenían calificaciones para ambos jugadores. Al final, decidí obtener un tamaño de muestra tan grande como pude, y conté los movimientos de un jugador si se conocía su calificación, independientemente de la calificación del otro jugador.
Proceso:
Los juegos se analizaron uno por uno, y si se conociera la calificación de un jugador, todos sus movimientos para ese juego se agregarían al agregado para el grupo de calificación del jugador. Elegí dividir las calificaciones en grupos de 100, por lo que, por ejemplo, 1600 a 1699 era un solo grupo.
Como el texto de movimiento real en PGN es SAN, utilicé el siguiente atajo para contar los movimientos: los movimientos de Caballero (N), Obispo (B), Torre (R), Reina (Q) y Rey (K) comienzan con la letra de su pieza. . El enroque (OO y OOO) se contó por separado, como un caso especial. Todos los movimientos restantes se contaron como movimientos de peón sin mayor examen.
No se realizó la limpieza de datos. No se intentó identificar valores atípicos y eliminarlos (por ejemplo, juegos extremadamente cortos y largos, etc.). Seguí, pero no incluí en el siguiente análisis, los resultados de clasificaciones por debajo de 1600: el tamaño de la muestra para estos juegos fue muy inferior a 100, lo que provocó grandes variaciones en los resultados. Los datos sin procesar se proporcionan al final de esta publicación.
Algunas deficiencias de la información: por el momento, solo he recopilado totales muy básicos y he proporcionado promedios. Estoy bastante seguro de que, en general, los datos NO se distribuyen normalmente, pero no podrán decir más sin generar los recuentos sin procesar y ejecutarlos a través de un programa estadístico. Puedo hacerlo, si hay interés. Por el momento, esto significa que no hay intervalos de confianza u otra información sobre la distribución de los números que representan esos promedios. Tampoco he verificado cuántos años abarca el conjunto de datos; si representa muchos años, puede ser beneficioso intentar corregir la intensidad general del campo.
Algunas tendencias
Una palabra sobre las calificaciones de los jugadores: los grupos de calificación más frecuentes encontrados fueron, en orden: 2400 a 2500, 2500 a 2600 y 2300 a 2400. Estos grupos de calificación proporcionaron el 72% de los juegos contados.
Mirando los resultados reales, la duración promedio del juego fue un poco sorprendente:
Los grupos de calificación sub-2000 tuvieron juegos significativamente más cortos que los grupos más altos. Esto bien puede explicarse por la posibilidad de que estuvieran jugando oponentes más fuertes (ver la calificación promedio, arriba), y que fueron derrotados en menos movimientos. Esto parece ir en contra de los juegos un poco más cortos jugados por el grupo de calificación superior, aunque eso puede contribuir a un tamaño de muestra más pequeño.
Las diferencias relativamente grandes en la duración promedio del juego significaron que proporcionar la frecuencia de mover una pieza determinada, en lugar del número total de veces que se mueve una pieza, es quizás la comparación más justa. El cálculo de las frecuencias da como resultado el siguiente gráfico:
Las siguientes tendencias parecen estar presentes:
- La frecuencia de los movimientos de caballeros parece tener una ligera tendencia a la baja con la calificación.
- Bishop mueve la tendencia hacia abajo hasta aproximadamente 2000, luego lentamente la tendencia hacia arriba.
- Los movimientos de torre avanzan bruscamente hacia arriba aproximadamente en el mismo punto, y son más frecuentes que los movimientos de Bishop en el juego de alto nivel.
- Los movimientos de peón parecen tener una ligera tendencia a la baja con una mayor calificación. Una gran excepción es la categoría superior, 2800 a 2900. Esto nos lleva al siguiente punto:
- La categoría de calificación superior proporciona valores atípicos o contra-tendencias en una gran cantidad de mediciones. Esto puede explicarse de varias maneras: 1) el tamaño de la muestra es bastante bajo en 363, no pequeño, pero incluye el 10% del siguiente tamaño de muestra más pequeño. 2) Como están en la parte superior de los grupos de clasificación, nunca juegan contra oponentes "más fuertes" que ellos mismos. 3) O simplemente en este nivel, su estilo de juego ha trascendido los niveles debajo de ellos. Mi conjetura sería una combinación de 1) y 2).
- Las diferencias en los movimientos de la reina y el enroque son muy pequeñas sin tendencias reales, aparte de una pequeña tendencia a la baja en ambos casos.
- La frecuencia de los movimientos del rey tiene algunas de las mayores diferencias. No se ve una tendencia clara, y parece cambiar de dirección 3 o 4 veces.
Análisis mas extenso
Algunas ideas para futuros análisis:
- Soluciones estadísticas básicas: creo que los juegos extremadamente cortos y largos probablemente deberían excluirse. Además, la distribución de los recuentos reales puede ser muy reveladora.
- Dividir el análisis más arriba también puede arrojar resultados interesantes. Por ejemplo, me interesaría saber cómo coinciden las frecuencias para blanco y negro (¿son iguales o diferentes? ¿Por qué?).
- La categorización por diferencia en la calificación también puede ser interesante, ¿juegan los jugadores que juegan un oponente mucho más fuerte (por ejemplo, 200 calificaciones por encima de ellos) juegan con diferentes frecuencias de movimiento? Desafortunadamente, esto requiere que se conozca el ELO de ambos jugadores, lo cual es raro en este conjunto de datos.
- La tendencia al castillo corto frente al largo también puede variar según la calificación.
- Las estadísticas de promoción de piezas, algunos análisis estructurales ligeros (p. Ej., Incidencia de peones duplicados, pases, pasadores, horquillas, mostrados por clasificación) pueden ser interesantes.
- Los "mapas de calor" de la colocación de piezas en el tablero real, mostrados por clasificación, también podrían ser bastante interesantes.
Datos agregados en formato CSV
Para aquellos que quieran jugar con los datos, siéntanse libres.
Rango de clasificación, Tamaño de muestra, Duración promedio del juego, Movimientos promedio de peones, Movimientos promedio de caballero, Movimientos promedio de obispo, Movimientos promedio de torre, Movimientos promedio de reina, Movimientos promedio de rey, Castillos promedio
1100 to 1200,4,28.500,7.000,4.000,4.000,6.500,3.750,2.750,0.500
1300 to 1400,16,34.125,9.250,6.813,5.000,4.438,4.563,3.188,0.875
1400 to 1500,35,33.800,9.400,6.114,5.514,4.514,4.057,3.400,0.800
1500 to 1600,61,33.607,8.705,7.459,4.984,4.443,4.033,3.148,0.836
1600 to 1700,163,33.153,9.227,6.485,5.110,4.699,3.969,2.816,0.847
1700 to 1800,301,31.811,8.894,6.223,5.402,4.468,3.734,2.296,0.794
1800 to 1900,307,34.251,9.537,6.642,5.577,4.889,4.039,2.759,0.808
1900 to 2000,450,35.551,9.731,6.778,5.451,5.444,4.442,2.871,0.833
2000 to 2100,3958,38.731,10.302,7.095,6.072,6.242,4.668,3.481,0.871
2100 to 2200,11217,38.905,10.501,7.116,6.086,6.245,4.629,3.445,0.884
2200 to 2300,50848,39.446,10.595,7.167,6.174,6.420,4.717,3.484,0.889
2300 to 2400,79322,39.248,10.551,7.141,6.141,6.469,4.653,3.402,0.891
2400 to 2500,111867,38.394,10.398,7.013,6.086,6.294,4.542,3.168,0.893
2500 to 2600,92225,38.308,10.396,6.972,6.082,6.344,4.515,3.104,0.896
2600 to 2700,33193,39.340,10.565,7.061,6.295,6.579,4.630,3.318,0.891
2700 to 2800,4805,40.938,10.945,7.221,6.725,6.930,4.726,3.494,0.895
2800 to 2900,363,38.865,11.311,6.879,6.284,6.160,4.391,2.983,0.857