¿Ha habido mucha investigación sobre la inflación de calificación?


24

El sorteo de Magnus Carlsen en la ronda de ayer del Clásico de Ajedrez de Londres 2012 aseguró que su calificación en la próxima lista de calificaciones de la FIDE publicada superará el récord anterior de Kasparov de 2851. He visto / escuchado a fanáticos apasionados del ajedrez debatir los méritos relativos del logro de la calificación de Carlsen frente a Kasparov versus, digamos, el de Fischer. Para ser claros, eso no es lo que busco aquí.

Un elemento crucial de tales discusiones es la noción de si las calificaciones de Elo en general han sufrido inflación con el tiempo: ¿hay tantos más de 2700 grandes maestros hoy que hace 20 años debido a un aumento general en la fuerza de juego, o simplemente debido a algunos tendencia inflacionaria general en los números? Tampoco estoy tratando de solicitar opiniones desnudas sobre si es así o no. Lo que me interesa saber:

¿Qué intentos serios de investigación se han hecho para responder a la pregunta empírica sobre si las clasificaciones FIDE Elo se han inflado naturalmente con el tiempo debido a algo más que un aumento en la fuerza general en el grupo de jugadores?

La entrada de Wikipedia sobre el sistema de calificación Elo tiene un poco que decir sobre el asunto, y también apunta a un artículo de Jeff Sonas de Chessmetrics . Además de los consejos para que otros trabajen, yo, por mi parte, también agradecería una respuesta que ofrezca un resumen claro y conciso de los puntos principales de Sonas.


Otra cosa para pensar es la inflación en las calificaciones de USCF. Ha habido, y periódicamente la USCF hace ajustes para horrorizar a los jugadores. Como la USCF y la FIDE utilizan el mismo sistema, fundamentalmente, me sorprendería si la inflación pudiera afectar a la USCF y no a la FIDE.
Tony Ennis

2
Los sistemas no son los mismos, por ejemplo, la USCF tiene pisos de calificación que son claramente un factor inflacionario.
RemcoGerlich

Respuestas:


19

Estoy sorprendido de que el documento "Intrinsic Chess Ratings" de Ken Regan y Guy Haworth no haya sido publicado aún. Es exactamente lo que se solicita, una investigación seria sobre la calificación de la inflación. PDF

Básicamente obtuvieron juegos de tres períodos (1976-1979, 1991-1994, 2006-2009), en varios rangos de calificación (por ejemplo, ambos jugadores dentro de los 10 puntos de 2200, dentro de los 10 puntos de 2300, etc.), y excluyeron los tipos de juegos que podría ser anómalo, como los partidos de equipo. Lea el periódico, parece bastante completo.

Luego compararon los juegos sistemáticamente con Rybka 3.

Algunas oraciones de la conclusión:

Llegamos a la conclusión de que existe una relación fluida entre las clasificaciones Elo de los jugadores reales y la calidad intrínseca de las opciones de movimiento según lo medido por el programa de ajedrez y el ajuste del agente. Por otra parte, los valores finales de la armadura obtenidos son casi los mismos para las entradas correspondientes de los tres períodos de tiempo.

En mi opinión, es una evidencia bastante sólida en contra de la existencia de inflación de calificación.


1
Gracias por publicar esto, también vine a compartir esto. Esta es la única línea de investigación que ha comparado a los jugadores con un estándar objetivo. Todos los argumentos que he visto para calificar la inflación son subjetivos y generalmente anecdóticos. En una nota personal, no creo que el hecho de que Morphy tuviera probablemente 2300 me quite mi apreciación de sus juegos o su habilidad en relación con sus competidores en ese momento.
Sam Copeland

12

Me asomé un poco. Probablemente hayas visto estas páginas, pero las publicaré de todos modos:

a. Esta página te interesará . Incluye una fotocopia de una carta del propio Elo que indica la posibilidad:

Por lo tanto, con el tiempo, la escala de calificación podría variar a menos que se tomen algunas medidas para estabilizarla.

Además, menciona que la escala de calificaciones no tiene ancla, ni punto fijo. Compárese con un atleta que corre una carrera en una hora; una hora ahora es lo mismo que una hora hace 50 años. El tiempo es un punto tan fijo.

si. Además, ¿la pregunta de 'inflación' no ha sido respondida por las recientes revelaciones de altas calificaciones provenientes de áreas aisladas? Consulte la sección "Grupo de jugadores" de esta página para obtener una alusión al problema. Apoyo adicional , aunque no es académico ni particularmente informativo. Busca "isol". Aquí hay otra anécdota que muestra lo que sucede con poblaciones aisladas (¡y otro candidato para el hilo 'por qué los jugadores de ajedrez están locos'!) No lo comprobé, pero debería ser lo suficientemente fácil de hacer.

do. El artículo de Elo wiki habla sobre la inflación como si fuera un hecho aceptado.

re. Aquí hay un artículo pertinente sobre la inflación y el seguimiento . ¡Mira esa pistola humeante en 1986!


No había visto la página de a. Gracias por eso. Con respecto a b., No estoy al tanto de lo que se refiere; ¿puedes elaborar?
ETD

2
Yo diría que sin un ancla real, es imposible ajustar con precisión; al final, solo nos estamos ajustando anecodatalmente hacia algún valor arbitrario.
Daniel B

Posiblemente. Pero ajustar las calificaciones para producir una curva de distribución similar probablemente sería un buen comienzo. Por ejemplo, hace algunos años, la USCF ajusta las clasificaciones para que el jugador promedio del club fuera 1500. No sé si todavía lo hacen.
Tony Ennis

1
@TonyEnnis Claro, y creo que probablemente sea tan bueno como sea posible, por ahora. Específicamente, quiero decir: ¿qué sucede si el "jugador promedio del club" hoy es realmente mejor que hace 50 años? No es que podamos hacer que jueguen contra jugadores del pasado ... Así que nos queda estimar la fuerza del jugador de alguna manera y ajustarnos. Quizás con programas de computadora (ejecutados en una plataforma estándar y prescrita), podríamos tener algún tipo de anclaje imparcial y duradero. Pero incluso esto tendría problemas, como el descubrimiento de estrategias que funcionan bien contra el programa de referencia, etc.
Daniel B

5

En términos absolutos, Carlsen 2012 seguramente es un jugador más fuerte que Kasparov 1985.

Si Carlsen 2012 viajara en el tiempo jugó un partido con Kasparov 1986, Carlsen derrotaría a Kasparov. Esto es simplemente porque la preparación asistida por tecnología es mucho más eficiente, y Carlsen también tiene una ventaja en la teoría de la apertura, porque tiene el conocimiento acumulado 1987-2012 que Kasparov no tiene.

Sin embargo, Kasparov es probablemente un jugador más fuerte que Carlsen. Si tomamos la lista FIDE Top 100 para junio de 2000 (la más antigua que se puede obtener), vemos que Kasparov con 2849 Elo compite con un promedio de 2641 por los 99 seguidores (Elo distancia 208 puntos) mientras que Calsen en Fide Top 100 para diciembre de 2012 con un 2848 Elo compite con un promedio de 2702 por sus 99 seguidores (distancia de Elo de 146 puntos).

Elo se trata de la diferencia de puntos, no de valores absolutos (100 puntos de diferencia para Elo significan que el jugador A es 2 veces mejor que el jugador B, 200 puntos significa 4 veces mejor, y así sucesivamente. Entonces, con esa lista, significaba que Kasparov fue en promedio más de 4 veces mejor que todos sus 99 seguidores, mientras que Carlsen es probablemente solo 3 veces mejor que el promedio de sus 99 seguidores.

Si tomamos la lista donde Kasparov tiene la distancia máxima con sus 99 seguidores y comparamos esa distancia con la mejor para Carlsen, podremos determinar qué jugador fue realmente el mejor, porque con 99 puntos de datos, valores atípicos (como otro genio) consigue mitigarlo.

Sin embargo, me pregunto si Carlsen o Kasparov realmente se preocupan por quién era mejor.


3
Su argumento acerca de que Kasparov es un jugador más fuerte que Carlsen se basa en comparar cada uno con los siguientes 99 mejores jugadores. Usted nota, correctamente, que las clasificaciones de Elo son relativas, pero su argumento hace una segunda suposición no declarada, a saber, que los siguientes 99 jugadores de hoy tienen la misma fuerza de juego promedio que los siguientes 99 en el apogeo de Kasparov. Si esa segunda suposición no es cierta, entonces está comparando Kasparov y Carlsen con diferentes estándares. Necesita encontrar un grupo de personas que sean las mismas hoy que en los días de Kasparov. Ese grupo es probablemente tu principiante promedio, no los super-grandes maestros.
Tucídides411

4

El sistema de Elo tenía dos componentes. Uno era independiente de la historia, el otro no. Su sistema para crear una "calificación de rendimiento" en el transcurso de un evento o un período de tiempo no tenía ningún componente histórico; fue simplemente una medida de rendimiento durante el tiempo especificado. (La memoria me falla en este punto, pero creo que cuando estaba calculando las calificaciones de la FIDE, este fue el método que utilizó).

Sin embargo, el sistema Elo utilizado por las federaciones de todo el mundo tiene un componente histórico, ya que las calificaciones se calculan calculando un delta, un cambio con respecto a la calificación anterior.

El sistema de base histórica tiene una tendencia natural hacia la deflación. El sistema es un sistema cerrado, sin crear nuevos puntos. Entonces, entran nuevos jugadores, toman puntos de jugadores establecidos y luego salen (por muerte o retiro) antes de devolver todos esos puntos al siguiente grupo de jugadores en ascenso.

Se han intentado muchas ideas para compensar esto, algunas funcionan mejor que otras. Agregue a esto la presión comercial en la USCF de principios de los 70 para hacer que las calificaciones aumenten más rápido (la opinión bastante cínica era que los jugadores comprarían un libro de la USCF y jugarían en un torneo, su calificación aumentaría, alentándolos a comprar otro libro, etc.) y la inflación fue algo real en algunos puntos de la historia.

Dado que el sistema de Elo se basaba en una curva normal (campana), no tiene sentido intentar medir la inflación midiendo cualquier extremo; Es más probable que los extremos se vean afectados por el número total de jugadores clasificados que por los cambios en la fuerza real o cualquier tipo de inflación.


1

Tengo una idea simple Tomemos una computadora de ajedrez (hardware + software) que tuvo su calificación medida hace 20 años, a través del juego con otras computadoras de ajedrez con calificaciones conocidas que tenían hace 20 años. Ahora midamos su calificación ahora (exactamente el mismo hardware más exactamente el mismo software), a través del juego con computadoras de ajedrez modernas, con la calificación conocida de hoy. La diferencia de dos mediciones constituiría una inflación de calificación de los últimos 20 años. ¿Suficientemente simple?


Calcularía más o menos la inflación de la calificación para las computadoras , no para los jugadores humanos. Los humanos juegan de manera diferente contra las computadoras que entre ellos.
Glorfindel

1

Las conclusiones del artículo de Regan-Haworth deben tomarse con un grano de sal, ya que parece contradecir otros análisis informáticos de juegos, en mejores software y hardware y con métodos matemáticos más avanzados. Allí concluyen (ver Tabla 9), por ejemplo, que Karpov en 1977 jugó a un nivel ligeramente más bajo que Kasparov en 2001 y Anand en 2008 (se esperaba que obtuviera alrededor del 47% de los puntos), y en realidad mejor que Topalov en 2005 y Ponomariov en 2011. Dado que Kasparov-2001 tiene una calificación de 150 puntos más alta que Karpov-1977, la calificación esperaría que obtuviera el 70% de los puntos. No veo cómo conciliar esto con la afirmación de que no hubo inflación de calificación.

Tenga en cuenta que, al contrario de lo que afirma implícitamente en la pregunta, no existe un mecanismo por el cual la calificación reflejaría un cambio en la fuerza general en el grupo de jugadores . Podría ser empíricamente el caso de que la fuerza típica de un jugador 2600 no ha cambiado durante cierto período de tiempo, pero esto sería simplemente una coincidencia en lugar de un reflejo de las propiedades fundamentales del sistema ELO, y ciertamente no es generalizable.

Si más bien definimos la inflación ingenuamente y solo medimos la calificación promedio de los 100 mejores jugadores, entonces, como se puede ver en este enlace , hubo una inflación constante hasta 2012 y no hubo inflación desde entonces: la calificación promedio de los 100 mejores oscilaba entre 2700 y 2705 durante los últimos 7 años .


0

Primero, debes definir qué quieres decir con mejor. Por ejemplo, ¿significa mejor que eres el jugador más dominante para tu época? ¿O significa que la calidad de tu jugador es superior a la de todos los demás jugadores? Y si la calidad es lo que quiere decir, ¿cómo define la calidad?

Paul Morphy fue probablemente el jugador más dominante. Por ejemplo, cuando tenía 12 años derrotó a un jugador de los diez primeros (Lowenthal) en un partido 3-0. Según Edo y chessmetrics, ¡probablemente ya era uno de los mejores jugadores del mundo a los 12 años! A la edad de 21 años, jugó contra un simultáneo contra 5 de los diez mejores jugadores (Bird, Barnes, Boden, De Reviere y Lowenthal) y anotó 3-2.

Sin embargo, la mayoría argumentaría que el dominio es un pobre indicador de quién es el mejor. Después de todo, Morphy ha sido descrito como el primer jugador de ajedrez moderno. Su competencia fue débil en comparación con los campeones posteriores.

Otra definición que se ha utilizado es la calidad del juego. Sin embargo, esta definición también tiene muchos problemas. En los cientos de 1900, varias personas argumentaron que Steinitz o Lasker eran los mejores jugadores de todos los tiempos, argumentando que su conocimiento de la apertura y la teoría moderna los haría superiores a los jugadores del pasado. Sin embargo, Louis Paulsen hizo algunos argumentos muy inteligentes en contra de esta hipótesis. Argumentó que Morphy (que tenía memoria fotográfica y memorizó el código de barras de Louisana a la edad de 19 años) si volviera a la vida aprendería aperturas y teoría moderna dentro de un año y podría competir con éxito contra los jugadores de ajedrez modernos.

Regan argumenta que los jugadores de ajedrez modernos que tienen acceso a las computadoras de ajedrez y los métodos de entrenamiento modernos juegan más como las computadoras que los jugadores del pasado. Eso no es sorprendente porque fueron entrenados por computadoras, pero ¿eso significa que los jugadores modernos son realmente mejores? Esto plantea la pregunta de qué harían Fischer o Capablanca si tuvieran acceso a las computadoras modernas.

Además, la computadora de análisis del profesor Regan me parece bastante incompleta, ya que solo implica unos pocos períodos de cinco años y no se mencionan los jugadores incluidos en el análisis. Un análisis informático más exhaustivo realizado por los profesores Matej Guid e Ivan Bratko descubrió que, de hecho, ¡Capablanca jugaba más como una computadora que los jugadores modernos! https://en.chessbase.com/post/computers-choose-who-was-the-strongest-player-. Sin embargo, Guid y Bratko notaron que hay un problema al concluir de esto que Capablanca era un mejor jugador. Quizás su estilo más bien sereno lo llevó a menos posiciones en las que probablemente cometería un error. Por lo tanto, su porcentaje de errores fue menor, pero también ejercía menos presión sobre sus oponentes que los jugadores más agresivos. De hecho, Capablanca tuvo un alto porcentaje de sorteo en comparación con sus contemporáneos.

Por el contrario, un jugador altamente táctico como Kasparov podría ser penalizado por su estilo de juego, que es más probable que conduzca a posiciones altamente tácticas donde las computadoras son especialmente buenas para encontrar errores. De hecho, las computadoras tienden a desempeñarse mejor contra jugadores tácticos que los jugadores posicionales o, en particular, de posición cerrada, donde las tácticas juegan un papel menor. Por lo tanto, el análisis por computadora que se basa en la cantidad de errores detectados por la computadora es probable que favorezca a los jugadores de posición cerrada. Por el contrario, un jugador agresivo como Kasparov puede cometer más errores tácticos que otros jugadores porque buscó posiciones muy complejas, ¡pero sus oponentes harán aún más!

Por lo tanto, necesita un sistema de ponderación de errores que no solo calcule el porcentaje de errores por cada 100 movimientos (que es básicamente lo que hicieron Regan, Guid y Bratko). En cambio, debes calcular la diferencia entre tu tasa de error y la tasa de error de tus oponentes. Después de todo, el ajedrez se trata de cometer menos errores que tu oponente. Presionar a tu oponente para inducir más errores se considera de buena calidad.

Sin embargo, mi método de cálculo revisado conduce a otro problema: estos análisis informáticos no tienen en cuenta la fuerza de tu oponente. Por ejemplo, tal vez Larson logra una calificación muy alta en ajedrez porque su estilo agresivo (optimista) condujo al dominio sobre los jugadores con calificaciones más bajas. Sin embargo, tuvo problemas en los juegos contra jugadores de igual calificación. Otros jugadores han argumentado con frecuencia que él era demasiado optimista en su juego contra otros jugadores de alta calificación. Para evitar este problema, el análisis de verificación de errores de la computadora solo debe mirar los juegos contra competidores fuertes (por ejemplo, los 10, 20 o 100 mejores jugadores). Sin embargo, eso todavía no aborda el problema de aumentar la fuerte competencia con el tiempo.

¿Se puede corregir el problema del aumento de la calidad del juego mirando las clasificaciones anteriores como Chessmetrics? En realidad, prefiero el sistema de clasificación de Edo http://www.edochess.ca/porque los supuestos estadísticos son mejores. Por ejemplo, Chessmetrics supone que la calificación máxima de un jugador ocurre cuando tiene 40 años. Dudo que eso sea cierto para todos y muchos jugadores abandonan el ajedrez antes de esa edad o su juego fue de primera categoría durante unos años (por ejemplo, Harry Nelson Pillsbury, Charousek, Fischer, Morphy, Rubinstein, Fine). Desafortunadamente, Edo solo compara las calificaciones de los jugadores de 1811 a 1920. Según Edo, Capablanca y Morphy son los dos jugadores más altos de esta época. Según Chessmetrics, Capablanca y Lasker fueron los dos mejores jugadores (Morphy ni siquiera está entre los diez primeros). Según Chessmetrics, Zukertort, Steinitz, Tarrasch, Lasker, Pillsbury, Maroczy, Marshall, Janowsky, Chigorin, Schelecter, Blackburne, Duras, Teichmann, Neumann, Vidmar, Gunsberg, Rubinstein y Burn fueron mejores que Morphy.

Si la innovación conduce al dominio dentro de una era de ajedrez específica a lo largo del tiempo y se vuelve cada vez más difícil innovar con el tiempo a medida que aumenta la fuerza de la competencia, no se puede medir el verdadero dominio con solo mirar los registros de los mejores 30 jugadores. Es decir, es mucho más difícil para Magnus Carlsen dominar a sus oponentes que para campeones anteriores. Si nos fijamos en las calificaciones anteriores, es fácil ver que la magnitud de la diferencia entre las calificaciones de los mejores jugadores ha disminuido con el tiempo. Por lo tanto, creo que un modelo estadístico de tipo Edo que tenga en cuenta la dificultad de dominar con el tiempo sería un mejor enfoque que lo que se ha intentado anteriormente. Por ejemplo, Fischer fue un jugador bastante dominante en su época porque ganó 20 juegos seguidos. ¿Cuál fue la racha ganadora más larga de Kasparov o Karpov en comparación con esta racha ganadora? Según Seirawan, sus rachas ganadoras más largas fueron siete juegos.

Por supuesto, no estoy afirmando que las rachas ganadoras sean una buena métrica. Solo estoy argumentando que el dominio por clasificaciones o en partidos individuales contra otros jugadores importantes es una métrica útil que no se toma explícitamente en consideración en los sistemas actuales de calificación de retroceso.

Entonces, el análisis de mis sueños es que utilizas las calificaciones de Edo basadas en una base de datos que solo incluye a los 20 o 30 mejores jugadores de cada período de cinco años. Después de completar este análisis, repondera sus resultados por un factor de dominio. Es decir, los jugadores más recientes obtienen un factor de bonificación que se calcula al estimar la trayectoria de dificultad para dominar con el tiempo (la disminución en las disparidades de calificación entre los 30 mejores jugadores a lo largo del tiempo). Luego, validarías este análisis comparando el porcentaje de jugadores de errores cometidos calculados por la computadora de ajedrez que sus oponentes cometen menos sus propios errores. Si esto invalida lo anterior, entonces debe volver a pesar de acuerdo con el análisis de verificación de errores de la computadora si muestra que hay una tendencia para que los mejores jugadores más recientes jueguen con mayor precisión incluso después de que se tenga en cuenta mi factor de dominio.

Supongo que, basándome en esto, es que a Kasparov le iría muy bien. Pero eso es solo una suposición.


2
Esto no parece responder a la pregunta.
Herb Wolfe

Mi punto es que no puede responder la pregunta sobre la calificación de la inflación hasta que defina la capacidad de ajedrez. Revisé una investigación que intentaba ajustar la inflación de calificación o tratar de determinar cómo varía la capacidad de los campeones de ajedrez a lo largo del tiempo (de eso se trata la inflación de calificación). Creo que el problema es que los investigadores no han identificado realmente sus suposiciones sobre lo que creen que es la habilidad del ajedrez. En mi opinión, sin definir la habilidad del ajedrez, no puedes responder a la pregunta de si la habilidad del ajedrez cambia con el tiempo o decir algo sobre la inflación de la calificación.
ToddM
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.