Dudo mucho que la fecha de publicación de una publicación o artículo se base en la <lastmod>
entrada en un mapa del sitio XML (como lo han sugerido otros) o en el encabezado HTTP de última modificación para el caso. Un mapa del sitio XML es solo informativo, no autorizado. La última fecha de modificación de un documento probablemente no sea la misma que la fecha de publicación (original) de un artículo. Y, como mencioné en mi comentario en la parte superior de la página, la última fecha de modificación de un documento es probablemente más importante para el almacenamiento en caché y quizás para determinar las tasas de rastreo. El encabezado HTTP de última modificación de páginas generadas dinámicamente a menudo está muy cerca de la fecha / hora real (como lo es para los blogs de WordPress).
Un feed RSS / Atom, por otro lado, contiene esta pepita de información específica. Y, de hecho, en los sitios de Wordpress que no incluyen la fecha de publicación en el contenido, la fecha de publicación todavía aparece en los resultados de búsqueda de Google. Y hasta donde puedo decir, esto coincide con la fecha en el RSS Feed.
EDITAR # 1: Sin embargo, un feed RSS no necesariamente contiene todas las páginas. En la mayoría de los casos sólo debe contener las últimas o más recientemente actualizados páginas. Pero no hay ninguna razón por la que Google deba olvidar lo que ya ha leído, y el hecho de que el contenido de esa página no haya cambiado, tampoco debería cambiar la fecha de la última modificación.
Si no hay una fuente RSS, creo que Google es lo suficientemente inteligente como para analizar el contenido de la página. Particularmente si las fechas se marcan 'semánticamente' con la ayuda de microformatos . Es perfectamente factible que Google vea lo siguiente como la fecha autorizada de publicación de un artículo que contiene:
<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>
Google ciertamente lee microformatos : hCard, hReview, etc.
Solo para agregar, no creo que Google establezca una fecha de publicación a menos que haya podido encontrar algo autorizado que sugiera esto. ¡No va a deducir una 'fecha de publicación' en los datos especulativos, ya que una 'fecha de publicación' incorrecta no es útil para nadie y Google se quedaría con mucho por ella!
Y solo para el registro (si @Tom sugiere lo contrario :) Creo que las publicaciones / artículos deberían tener la fecha de publicación visible. Muchos no lo hacen, y esto puede ser frustrante para el lector, especialmente cuando investiga problemas de tecnología, ¡y encuentra que haber leído la mitad del artículo está desactualizado!
EDITAR # 2: desde entonces he experimentado una molestia similar a la que @mmdanziger detalla en su respuesta. En uno de mis sitios antiguos, tengo el texto del formulario "Sitio actualizado por última vez el 17 de junio de 2012" (no marcado de ninguna manera especial) en la parte superior de cada página (¡escrito en la página con JavaScript!). Google ha recogido esta misma fecha y ahora aparece junto con varias (pero no todas) páginas que aparecen en los SERPS; esta ciertamente no es la fecha de publicación de la página. Parece que Google simplemente está desechando la página para obtener una cadena del formulario "última actualización ( cadena de fechas )" (¡¡después de haber procesado el JavaScript !!). Este sitio en particular no tiene una fuente RSS. El sitio tiene un archivo Sitemap.xml pero las fechas son diferentes.
He notado un comportamiento similar en otros sitios también.