Quiero probar cómo se comportaría mi sitio al ser arañado. Sin embargo, quiero excluir todas las URL que contengan la palabra "página". Lo intenté:
$ wget -r -R "*page*" --spider --no-check-certificate -w 1 http://mysite.com/
Se -R
supone que la bandera rechaza el patrón de URL que contiene la palabra "página". Excepto que no parece funcionar:
Spider mode enabled. Check if remote file exists.
--2014-06-10 12:34:56-- http://mysite.com/?sort=post&page=87729
Reusing existing connection to [mysite.com]:80.
HTTP request sent, awaiting response... 200 OK
¿Cómo excluyo spidering de dicha URL?