Esta es una respuesta tardía, pero para completar: es bastante difícil acercarse al 90% de la búsqueda de todos los favicons.
Hace un tiempo escribí un complemento de WordPress: http://wordpress.org/extend/plugins/wp-favicons/ que intenta acercarse.
a. Comienza mirando repositorios de favicon como google favicons, getfavicons, etc.
si. si ninguno de ellos devuelve un ícono (verifico esto haciendo coincidir con el ícono predeterminado que devuelven), comienzo intentando obtener el ícono yo mismo
C. esto implica atravesar las páginas, pero también verificar las redirecciones sin redireccionamiento automático, así como atravesar 404 porque también en 404 podría estar presente un icono. Al final, significa que tendrá que analizar también las redirecciones en el encabezado html, así como las redirecciones de JavaScript para acercarse al 100%.
re. después de eso, hago algunas inspecciones en el archivo de imagen física, porque también a veces en algunos servidores (probé más de 300.000) los archivos se devuelven con el tipo de mime incorrecto, etc.
El código aún no es perfecto porque en los detalles se vuelve loco, encontrarás muchas situaciones extrañas: personas tienen rutas codificadas incorrectamente (img / favicon.ico donde img NO está en la raíz), encabezados duplicados en la salida html, diferentes respuestas del servidor de una cabeza y un cuerpo, etc ...
el núcleo de la parte de búsqueda está aquí: http://plugins.svn.wordpress.org/wp-favicons/trunk/includes/server/class-http.php para que pueda realizar ingeniería inversa, pero tenga en cuenta que la validación de la respuesta debe realmente hecho (verificando el tipo de archivo de imagen, mímica, etc.)