¿Cómo obtengo una lista de todos los enlaces indexados?


8

Estoy buscando una manera de tomar cada enlace que indice Google y exportarlos a un archivo CSV. Recientemente he tenido muchas más páginas indexadas por Google que las que realmente tengo y quiero encontrar de dónde provienen todas estas páginas sin tener que ver cada página de resultados de búsqueda.


¿De dónde has obtenido el número de páginas indexadas?
MrWhite

Webmaster de Google y sitio de búsqueda: dominio.com
Lee

2
Lo único que diría es que los datos informados en las Herramientas para webmasters (Salud> Estado del índice> Total indexado) serán más precisos que los informados por un sitio: búsqueda en domain.com. Un sitio: la búsqueda siempre devuelve una cifra mucho más alta en mi experiencia, pero si revisa los SERP, el número real de resultados es menor que la cifra "Acerca de los resultados NNNN".
MrWhite

Bueno, esa página fue la razón por la que me interesé en esto en primer lugar. En 3 meses, el número de páginas indexadas ha pasado de 27,000 a 567,000 y quiero saber por qué.
Lee

Respuestas:


6

Lamentablemente, no hay forma de obtener una lista completa de todas las páginas indexadas en Google. Incluso la solución de milo5b solo le proporcionará un máximo de 1,000 URL.

Parece que tienes algunos problemas de contenido duplicado. En Herramientas para webmasters de Google, verifique Salud> Estado del índice y le mostrará un total acumulado de páginas indexadas a lo largo del tiempo. Si el gráfico da un gran salto en un punto, es posible que pueda resolverlo si un cambio específico en su sitio provocó el salto.

También puede intentar usar las Herramientas para webmasters de Bing . Tienen un Explorador de índices que podría ayudarlo a encontrar las URL. Las arañas de los motores de búsqueda son bastante similares, por lo que si Google encontró esos enlaces, Bing probablemente también lo hizo.

Pensé que Bing tenía una manera de exportar la mayoría de sus datos, pero no puedo encontrarlos a simple vista. Sin embargo, hay una API, por lo que probablemente podría usarla para extraer todo.


Gracias por la sugerencia de Bing, pero solo tenían 9,000 páginas indexadas y estoy bastante seguro de que no son los enlaces que necesitaba.
Lee

8

Terminé profundizando en la subcarpeta problemática mediante la búsqueda del sitio: dominio.com/foo/bar/ pero en mi búsqueda encontré un método para obtener los resultados de la búsqueda en un archivo de Excel.

Abra una hoja de cálculo de Google Docs y use esta fórmula:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=1"; "//cite")

Solo obtendrá los primeros 100 resultados, pero puede usarlo nuevamente para obtener los siguientes 100. Simplemente cambie la variable de inicio:

=importXml("www.google.com/search?q=site:domain.com&num=100&start=100"; "//cite")

Esto solo proporcionará hasta 1000 resultados, como se mencionó anteriormente por DisgruntledGoat, pero la fórmula se puede cambiar para proporcionar enlaces desde subdirectorios específicos:

= importXml ("www.google.com/search?q=site:domain.com/foo/bar/&num=100&start=1"; "// cite")


Gran consejo con Google Docs. Solo me preguntaba cuál era el problema real con respecto a las páginas indexadas adicionales: ¿era contenido duplicado?
MrWhite

1
Lo rastreé hasta vBulletin, un software de foro que estamos usando. Agregaron una nueva característica llamada flujo de actividad y la agregaron a la sección de usuarios. Por lo tanto, cada usuario no solo tendría páginas de su propia actividad en su perfil, sino toda la actividad de cada amigo que tenga. Además, Google indexaba páginas de actividad en blanco porque vBulletin no devolvería un 404. Terminé sin indexar toda la sección.
Lee

importXML solo funciona correctamente con las hojas antiguas que se pueden activar con este enlace: g.co/oldsheets
i.amniels

2

Puede escribir un script que analice el SERP de Google (por ejemplo, PHP + Curl) y almacenar cada enlace en un archivo CSV. Tenga cuidado de que su script se comporte como un humano, porque Google podría prohibir su IP de los resultados de búsqueda durante unas horas si abusa de esto.

Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.