Me di cuenta de que Google Webmaster Tools informa muchos recursos bloqueados en mi sitio web. En este momento, todos los "recursos bloqueados" son .css, .js e imágenes (.jpg, .png) que sirvo desde Cloudfront CDN.
He pasado mucho tiempo probando e intentando descubrir por qué Google no rastrea estos archivos e informa un estado de "bloqueo de recursos".
Actualmente sirvo estos archivos de varios nombres de host como: cdn1.example.com, cdn2.example.com, ...
cdn1, cdn2 y los demás son CNAME para el nombre de distribución de cloudfront.
Prueba: he intentado usar directamente la distribución en la nube (sin CNAME) pero el problema persiste.
Actualmente mi robots.txt se ve así:
# Google AdSense
User-agent: Mediapartners-Google
Disallow:
#Google images
User-agent: Googlebot-Image
Disallow: /
User-agent: *
Disallow: /homepage
Disallow: /index.php*
Disallow: /uncategorized*
Disallow: /tag/*
Disallow: *feed
Disallow: */page/*
Disallow: *author*
Disallow: *archive*
Disallow: */category*
Disallow: *tag=*
Disallow: /test*
Allow: /
Y ejemplos de archivos bloqueados en una página de ejemplo:
cdn1.example.com/wp-content/plugins/wp-forecast/wp-forecast-default.css
cdn9.example.com/wp-content/plugins/bwp-minify/min/?f=wp-content/themes/magazine/css/font-awesome.min.css,wp-content/themes/magazine/css/responsive .css
cdn5.example.com/wp-content/themes/magazine/images/nobg.png
cdn6.example.com/wp-content/plugins/floating-social-bar/images/fsb-sprite.png
cdn5.example.com/wp-content/uploads/2013/11/Design-Hotel-3-80x80.jpg
cdn5.example.com/wp-content/uploads/2013/11/Marta-Hotel-7-270x225.jpg
Incluso he intentado permitir todo en robots.txt, pero siempre tengo el mismo resultado.
También he estado mirando cuidadosamente la configuración de CloudFront en Amazon y no veo nada que pueda estar relacionado (no uso y nunca usé la opción: "Restringir el acceso al visor (usar URL firmadas o cookies firmadas)".
En este momento he pasado mucho tiempo investigando esto y no tengo más ideas.
¿Alguien puede pensar en una razón por la cual Googlebot no podría rastrear archivos alojados en Amazon CloudFront?
*
al final del "prefijo" de la URL. /test*
es el mismo que /test
.