Puede usar los volcados de datos de Wikipedia . El volcado de datos XML para Wikipedia en inglés que incluye solo las revisiones actuales es de aproximadamente 31 GB, por lo que diría que sería un buen comienzo para su investigación. El volcado de datos es bastante grande, por lo que debería considerar extraer los textos de XML con un analizador SAX. WikiXMLJ es una práctica API de Java ajustada para Wikipedia.
Y luego, por supuesto, siempre están los volcados de datos de Stack Exchange . La última incluye todos los sitios públicos de Stack Exchange no beta y los correspondientes sitios Meta hasta septiembre de 2011. Pero, naturalmente, las publicaciones de Stack Exchange se concentran en el alcance de cada sitio, por lo que probablemente no sea tan generalizado como desearía. Sin embargo, las publicaciones meta son un poco más generales, por lo que podría considerarlas además de Wikipedia.
No creo que encuentres nada mejor, especialmente en texto plano. Varios conjuntos de datos abiertos están disponibles a través del Data Hub , pero creo que el volcado de datos de Wikipedia en inglés está muy cerca de lo que está buscando.