Investigué la respuesta a esta pregunta de esta manera: usando Google ya que este es el ejemplo que tengo, cómo Google obtiene fechas de creación y fechas modificadas, y formatos de fecha que Google reconoce. Por favor, comprenda que esta información no existe en solo unas pocas páginas y tuve que descubrir los datos de muchas fuentes, algunas de las cuales no parecen aplicarse directamente y juntarlas. En algunos casos, la información se deriva de varias fuentes y no siempre se puede citar.
Google busca las fechas de página en este orden; URL, etiqueta de título, cuerpo (contenido), metaetiquetas, encabezado de respuesta HTTP al menos en lo que respecta al dispositivo de búsqueda de Google. En otros párrafos en otros documentos, no se documentó ningún orden, pero la lista se discutió y pareció confirmarla. Si lo piensa, esto refleja el orden en que lo haría un motor de búsqueda; uno: descubra su página (enlace) y dos: lea su página de arriba a abajo (título, cuerpo y metaetiqueta) con la excepción de la metaetiqueta (pequeño detalle) y el encabezado de respuesta HTTP. Aquí está la lista en lo que respecta al dispositivo:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Nota: La fecha de inicio es la fecha en que Google solicitó por primera vez la página. En ausencia de una fecha de creación, se utiliza la fecha de inicio.
1] Cualquier motor de búsqueda puede solicitar un recurso a través de una solicitud HTTP GET y el servidor web devuelve la última fecha de modificación dentro del encabezado de respuesta con el recurso dentro del paquete de datos.
2] Cualquier motor de búsqueda puede solicitar información de encabezado de un recurso a través de una solicitud de encabezado HTTP y el servidor web devuelve la fecha de modificación dentro del encabezado de respuesta sin el recurso dentro del paquete de datos.
3] Cualquier motor de búsqueda puede solicitar si un recurso ha sido modificado desde una fecha determinada solicitando un recurso con un HTTP GET con if-modified-since establecido en una fecha. Si el recurso se ha modificado desde la fecha establecida, el servidor web responde con una respuesta de 200 Ok y devuelve el recurso o si el recurso no se ha modificado desde la fecha establecida, el servidor web responde con un 304 No modificado sin devolver el recurso .
Google realiza muchas solicitudes utilizando el método # 3 para ahorrar en ancho de banda. Los verá en los archivos de registro de su servidor web.
Nota: es posible que un sistema de administración de contenido (CMS) u otro software no pueda proporcionar la fecha de manera adecuada dentro de un encabezado de respuesta.
Estos ejemplos de fechas también provienen de la documentación del dispositivo de Google, pero también existen en otros lugares relacionados con la búsqueda general. Tomé estos detalles de la documentación del dispositivo simplemente porque se podía cortar y pegar como una lista donde en otros lugares no estaba tan ordenada.
4] Google busca una fecha dentro de la URL. Busca los siguientes formatos; YYYMMDDHH - YYYY - YYYYMM.
5] Google busca una fecha dentro de la etiqueta del título. Busca los siguientes formatos; AAAAMMDDHH - AAAA - AAAAMM aunque sospecho que se pueden reconocer otros formatos. Vea abajo.
6] Google busca una fecha dentro de la etiqueta del cuerpo (contenido). Busca los siguientes formatos; YYYMMDDHH - YYYYMMDD - YYYYMM - YYYY - DDMMYYYY - YYMMMDD - MMDDYYYY - YYMMDD - DDMMYY - MMDDYY aunque sospecho que se pueden reconocer otros formatos. Vea abajo.
Nota: Se sabe que Google busca específicamente una fecha justo debajo de la primera H1
etiqueta. Esto se debe a que los blogs a menudo ponen fechas en esta ubicación.
7] Google busca una metaetiqueta como esta. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
También se dice que Google reconoce los siguientes formatos de fecha.
AAAA-MD - AAAA.MD - AAAA / M / D - MD-AAAA - MDYYYY - M / D / AAAA - AA-MM-DD - AAA.MM.DD - AA / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - AAAA-DM - AAAA.DM - AAAA / D / M - DM-AAAA - DMYYYY - D / M / AAAA - DD-MM-AA - MM-DD-AA - DD / MM / AA - MM / DD / AA - AAAAMMDDHH - AAAAMMDD - AAAAMM - AAAA - DDMMYYYY - MMDDYYYY - AAAMMDD - DDMMYY - MMDDYY
La investigación que encontré no respondió la cuestión del tiempo.
En el caso de los ejemplos citados, las páginas no proporcionan pistas de fecha, excepto dentro de una etiqueta de intervalo que puede ignorarse. Es posible que el software / servidor web SE no pueda devolver la creación y las fechas modificadas dentro de cualquier encabezado de respuesta.
Por qué y cómo Google obtuvo estas fechas es una buena pregunta que tal vez nunca se resuelva. Sin embargo, seguiré buscando.