¿Cómo obtener la fuente de la página de una página de resultados de búsqueda de Google específica?


0

Quiero escribir un código para dar los nombres de los personajes en series de televisión o películas usando un script de shell ... Planeo hacerlo al extraer la fuente de la página del resultado de búsqueda de google para el cual requeriré la página fuente de los enlaces ... por ejemplo, este enlace probé directamente usando wget pero da el código de error 8 y también curl -L alimenta la fuente de la página "incorrecta"


¿Estás seguro de que es la fuente de la página "incorrecta"? Es probable que Google use el código del lado del cliente (JavaScript) para completar los datos de los caracteres una vez que se carga la página, es decir, la fuente de la página que recibe no se verá como la fuente del navegador porque JavaScript ha cambiado la fuente que se muestra en el navegador después de la carga de la página . wgety curlno hagas ningún procesamiento.
varlogtim

Respuestas:


0

Si observa los mensajes de registro de wget, verá que finalmente obtiene "403 Prohibido" de Google.

Así que siéntase invitado a ver esta respuesta de Stackoverflow . Google no quiere que su página de resultados de búsqueda se use de manera automatizada, y supongo que tienen buenas razones.

Si quiere hacer esto de todos modos, puede configurar otra cadena de Agente de usuario con wget --user-agent=Chrome -O results.html 'https://www.google.com/search?hl=en&q=iron%20man%20character%20names'

Sin embargo, la respuesta que obtiene de Google no es fácil de analizar, ¿tal vez pueda usar una base de datos de películas para esta tarea?


que funcionó y, de hecho salida no es fácil de Somthing ser analizada .. y sobre el uso de película de DB en realidad lo que quiero hacer es más genérico y una pieza de un mosaico que estaba molestando (que u resueltos) me ...
juggernauthk108
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.