Lamentablemente, no hay forma de obtener una lista completa de todas las páginas indexadas en Google. Incluso la solución de milo5b solo le proporcionará un máximo de 1,000 URL.
Parece que tienes algunos problemas de contenido duplicado. En Herramientas para webmasters de Google, verifique Salud> Estado del índice y le mostrará un total acumulado de páginas indexadas a lo largo del tiempo. Si el gráfico da un gran salto en un punto, es posible que pueda resolverlo si un cambio específico en su sitio provocó el salto.
También puede intentar usar las Herramientas para webmasters de Bing . Tienen un Explorador de índices que podría ayudarlo a encontrar las URL. Las arañas de los motores de búsqueda son bastante similares, por lo que si Google encontró esos enlaces, Bing probablemente también lo hizo.
Pensé que Bing tenía una manera de exportar la mayoría de sus datos, pero no puedo encontrarlos a simple vista. Sin embargo, hay una API, por lo que probablemente podría usarla para extraer todo.