¿Por qué Google Webmaster Tools rastrea URLS no válidas y muestra 500 errores?

11

Las herramientas para webmasters de Google informan 12k + 500 errores. Eeek!

Ninguna de las URLS es válida, todas contienen www.youtube.com. Primero, ¿por qué Google rastrea estas URLS si no existen? Proporcioné un mapa del sitio, y por supuesto no están en el mapa del sitio.

No tengo un archivo robots.txt que bloquea nada. Verifiqué las redirecciones no válidas, ninguna, y las etiquetas no cerradas o algo que arrojaría www.youtube.com a la URL por accidente, ninguna.

En cada 'enlace desde', la URL de referencia también es una URL incorrecta, con www.youtube.com en ella. Google Tools informa que no hay malware, y no puedo verificar los registros del servidor porque el host no me da acceso.

Realmente atascado! Cualquier idea apreciada!

google-search-console http-code-500

— Amos Kane
fuente

¿Puedes publicar algunos ejemplos por favor?

— ionFish

¿Su sitio web es Wordpress u otra plataforma de blog?

— Ubique

3

Si ve errores HTTP 500 (errores del servidor) para URL no válidas, probablemente tenga un problema en su configuración: las URL no válidas deben devolver 404 o 410.

— John Mueller

8

Hay (al menos) dos razones comunes por las que las URL extrañas y maltratadas pueden aparecer como errores de rastreo en las Herramientas para webmasters de Google.

La primera posibilidad es que alguien haya copiado sus páginas (o algunas otras páginas que enlazan con la suya) y haya destrozado los enlaces en el proceso. Esto sucede con más frecuencia de lo que piensas; vea, por ejemplo, la sexta pregunta en esta publicación de blog de Google Webmaster .

La otra posibilidad es que el propio robot de Google esté tratando de seguir lo que cree que son enlaces de JavaScript y está haciendo un desastre . Por lo general, puede distinguir estos dos casos al visitar la página de referencia (que debería existir y ser accesible, si Google logró rastrearla para empezar) y buscar el nombre de la página de destino en su fuente.

De cualquier manera, hay básicamente dos cosas que puede hacer: simplemente ignorar los enlaces o crear algunas reglas de reescritura para tratar de asignar las URL rotas en las que funcionan. Si puede ver un patrón obvio en las URL y está familiarizado con las expresiones regulares, le recomendaría este último enfoque: limpiará su lista de errores de rastreo y tal vez incluso le dará un impulso de PageRank pequeño y bastante cursi, pero real. .

Una tercera opción, si encuentra que alguien ha estado copiando su contenido sin permiso, es tratar de sacarlo de la lista . Incluso puede enviar una queja (y / o una solicitud de eliminación formal) a su proveedor de alojamiento, si cree que está justificado. Por supuesto, dado que aparentemente están vinculando de nuevo a su sitio, no necesariamente encontrará que valga la pena el esfuerzo.

— Ilmari Karonen
fuente

0

Google está indexando el sitio no de inmediato todas las páginas a la vez.

Google indexa las páginas en primer lugar al más alto nivel. Luego, después de unos días, Google intenta indexar más profundamente: segundo nivel de páginas (las páginas en las que Google encontró enlaces en el primer nivel de páginas), y así sucesivamente. De esta manera, Google intenta indexar cada página en el sitio. Por lo tanto, Google crea un árbol jerárquico de enlaces y Google sabe qué páginas están vinculadas a cada página.

Luego, Google llegó a cada página indexada después de un tiempo y verifica si el contenido de la página ha cambiado. El intervalo de indexación para cada página y cada sitio se basa en muchos factores.

Entonces, si elimina alguna página y actualiza todos los enlaces a esta página en todas las demás páginas, Google no lo sabe de inmediato y trata de indexar la página eliminada porque está previsto indexar esta página en su programación.

— webvitaly
fuente