¿Cómo puedo saber cuándo una URL particular fue indexada por primera vez por Google? Prefiero una solución que funcione incluso para las URL de la competencia que no son de mi propiedad.
¿Cómo puedo saber cuándo una URL particular fue indexada por primera vez por Google? Prefiero una solución que funcione incluso para las URL de la competencia que no son de mi propiedad.
Respuestas:
Para conocer la antigüedad de una URL, puede seguir este enlace reemplazándolo www.example.com
por la URL que desee:
https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl
Por ejemplo, aquí está el resultado de Google para el sitio Meta de Stack Overflow :
De lo contrario, la máquina Wayback también es una buena solución pero menos precisa desde mi experiencia.
.fr
a .com
.
www
también en este momento, muestra el resultado de la fecha, Dec 1, 2014
que es una fecha muy reciente que no puede ser la edad de la URL. ¿Estoy buscando incorrectamente? o falta algo?
Zistoloen encontró una manera de hacer que Google muestre la fecha cuando indexó por primera vez el contenido de la página. También lo agrego a mi respuesta porque creo que puedo explicarlo más claramente.
Google mostrará la fecha en que descubrió el contenido que está en la página en el resultado de la búsqueda.
Si la página se actualiza con nuevo contenido, Google también actualiza esta fecha. Por lo tanto, es más una fecha de "primer índice de este contenido" en lugar de una fecha de "primer índice de esta URL".
El caché de Google para una página muestra cuándo se indexó por última vez. Puede ver que la página de inicio de Stack Exchange se indexó por última vez hoy:
Otra opción es usar la máquina Wayback de Internet Archive . Eso te muestra cómo era una página en el pasado. Puede averiguar cuándo se publicaron las páginas por primera vez. Tanto Google como Internet Archive rastrean y usan la página poco después de su primera publicación.
bing.com
. Perdón si me equivoco?
Es posible que no haya ninguna forma de averiguar cuándo Google indexó por primera vez una página web arbitraria; ciertamente, no conozco ninguna forma de hacerlo. Es posible que Google simplemente no almacene esa información, ya que no hay una razón real por la que lo necesiten. Además, incluso si almacenan esta información, realmente no tienen una razón particular para ponerla a disposición de terceros de forma gratuita.
(Si es su propia página y tiene acceso a los registros de acceso de su antiguo servidor web, es fácil: solo busque en los registros la primera visita del robot de Google a esa página. Pero de lo contrario puede que no haya forma de saberlo con certeza).
En cualquier caso, el método descrito por Zistoloen y Stephen Ostermiller en sus respuestas generalmente no revela la fecha en que Google indexó una URL en particular. Más bien, muestra la fecha en que Google cree que el contenido de la URL se publicó o se actualizó por última vez, y a menudo se basa en los intentos más o menos confiables de Google de "olfatear" las fechas del contenido de la página.
En este video , Matt Cutts de Google toca brevemente cómo se eligen estas fechas. Por conveniencia, he transcrito la parte relevante del video (aproximadamente de 2:09 a 2:22) a continuación:
"... a menudo verá la fecha, como la inferimos, o cuando la vimos por primera vez, cada vez que rastreamos esa página, o si podemos encontrarla en algún lugar de la página, y podemos extraer esa fecha, usted ' Lo veré justo al comienzo del fragmento ".
Para páginas como publicaciones de blog, páginas wiki o preguntas de Stack Exchange, donde el sitio que ejecuta el software informa automáticamente una fecha precisa de creación / modificación en la página, es probable que la fecha informada por Google coincida. Sin embargo, para otros tipos de páginas, el rastreador de fechas de Google tiene que trabajar más duro, y no siempre es correcto (lo que sea "correcto" puede significar, en este contexto).
En particular, estas fechas son básicamente inútiles para determinar cuánto tiempo hace que se indexó una página , por dos razones:
Si una página se modificó recientemente y la fecha de modificación se muestra de manera destacada en la página, Google puede elegirla como "la fecha" de la página, incluso si la modificación fue completamente trivial.
Por ejemplo, esta página wiki bastante antigua (que archive.org indexó por primera vez en 2003 ) tiene actualmente la fecha de Google como del 10 de noviembre de 2014, la fecha en que se editó más recientemente, como se muestra en la parte inferior de la página. ¿El cambio que sucedió en esa fecha? Simplemente eliminando un solo enlace de la parte inferior de la página.
Por el contrario, Google parece estar feliz de aceptar "fechas de publicación" muy antiguas si las encuentra en la página, incluso aquellas anteriores al lanzamiento de la World Wide Web .
Por ejemplo, esta página de un antiguo concurso de programación está fechada por Google al 15 de septiembre de 1986, en realidad la fecha del evento descrito en la página. Del mismo modo, esta página que documenta una huelga estudiantil en 1970 está fechada por Google al 10 de mayo de 1970 (la fecha de uno de los documentos escaneados en la página), y, aún más absurdamente, esta página del manual de Linux está fechada por Google al 4 de noviembre. , 1989 (una fecha de ejemplo aleatoria utilizada en la página).
Puede encontrar muchos más ejemplos de este tipo utilizando la búsqueda de rango de fechas personalizada descrita por Stephen y Zistoloen, pero configurando el extremo superior del rango a, por ejemplo, el 6 de agosto de 1991 .