Si está preparado para usar herramientas de línea de comandos estándar de Linux como wc
y grep
luego creo que mi procesador PGN gratuito, pgn-extract , hará gran parte del preprocesamiento necesario para contar juegos en cada categoría. A continuación se muestra un script bash básico que armé como prueba de concepto. Asume que se llama a su archivo de juegos inputfile.pgn
: ajústelo según sea necesario o páselo como un argumento de línea de comandos:
#!/bin/bash
# Output stats on castling.
src=inputfile.pgn
# Pre-process the games to allow textual analysis.
pgn-extract -C -V -N --notags --nochecks --linelength 10000 -s -o stripped.pgn ${src}
# Castling by white: detect a preceding move number.
grep '\. O-O ' stripped.pgn > Wkingside.pgn
grep '\. O-O-O ' stripped.pgn > Wqueenside.pgn
# Castling by black: detect no preceding move number.
grep '[^.] O-O ' stripped.pgn > Bkingside.pgn
grep '[^.] O-O-O ' stripped.pgn > Bqueenside.pgn
# Find games in which no castling occurred.
grep -v ' O-O ' stripped.pgn | grep -v ' O-O-O ' | grep -v '^$' > nocastle.pgn
# Output the FEN of the final position to include castling rights and
# look for the presence of rights.
pgn-extract -C -V -N --notags --nomovenumbers --linelength 10000 -s nocastle.pgn --dropply -1 -F | grep ' [wb] [KkQq]' > rights.txt
# Output the results - assumes valid Result tags in the source.
echo 'Number of games: ' `grep '^\[Result ' ${src} | wc -l`
echo 'W Kingside: ' `cat Wkingside.pgn | wc -l`
echo 'W Queenside: ' `cat Wqueenside.pgn | wc -l`
echo 'B Kingside: ' `cat Bkingside.pgn | wc -l`
echo 'B Queenside: ' `cat Bqueenside.pgn | wc -l`
echo 'Neither: ' `cat nocastle.pgn | wc -l`
echo 'Rights retained: ' `cat rights.txt | wc -l`
Probé el script en la base de datos KingBase (abril de 2019) y, después de eliminar juegos rotos y duplicados, obtuve las siguientes estadísticas:
Number of games: 2072354
W Kingside: 1633762
W Queenside: 246158
B Kingside: 1670870
B Queenside: 128124
Neither: 69776
Rights retained: 24280
La cifra de "ninguno" es de aproximadamente el 3,4%, mientras que la cifra de "derechos retenidos" es de aproximadamente el 1,2%. Si se eliminan los juegos con 20 o menos capas, la cifra de 'ninguno' se reduce a aproximadamente 2.9% y la cifra de 'derechos retenidos' a aproximadamente 0.7%.