¿Qué tecnologías de bases de datos usan los grandes motores de búsqueda? [cerrado]


Respuestas:


21

Estoy seguro de que hay una combinación de cosas:

  • hardware serio
  • gran cantidad de datos: los datos se distribuyen y replican en muchos nodos y diferentes centros de datos

    • (en realidad, en el caso de Google, al menos creo que tienen miles y miles de servidores realmente de gama baja)
  • muchos de los resultados de las consultas comunes se almacenan en caché, observe cómo rellenan previamente posibles búsquedas de cosas que sabe que nunca ha buscado antes; predicen lo que podrías buscar y esperan que ya tengan tu resultado precalculado y almacenado en alguna parte. En muchos casos lo hacen: no hay muchas búsquedas que pueda encontrar en Google hoy que nadie haya preguntado antes que usted. Cuando obtienen una nueva frase de búsqueda, entonces probablemente usan algo como búsqueda de texto libre, y esperaría que las palabras clave se extraigan semánticamente cuando se rastrea una página por primera vez en lugar de tratar de encontrar palabras clave en el documento después de haberlas buscado. . Por supuesto, tienen que invalidar periódicamente esos cachés, volver a calcular el rango de página,

34

Palomas .

El corazón de la tecnología de búsqueda de Google es PigeonRank ™ , un sistema para clasificar páginas web desarrollado por los fundadores de Google Larry Page y Sergey Brin en la Universidad de Stanford:

ingrese la descripción de la imagen aquí

Sobre la base del trabajo innovador de BF Skinner, Page y Brin razonaron que los grupos de palomas (PC) de bajo costo podrían usarse para calcular el valor relativo de las páginas web más rápido que los editores humanos o los algoritmos basados ​​en máquinas. Y aunque Google tiene docenas de ingenieros trabajando para mejorar todos los aspectos de nuestro servicio a diario, PigeonRank continúa proporcionando la base de todas nuestras herramientas de búsqueda web.

Por qué el PigeonRank ™ patentado de Google funciona tan bien

El éxito de PigeonRank se basa principalmente en la capacidad de entrenamiento superior de la paloma doméstica (Columba livia) y su capacidad única de reconocer objetos independientemente de la orientación espacial. La paloma gris común puede distinguir fácilmente entre elementos que muestran solo las diferencias más pequeñas, una capacidad que le permite seleccionar sitios web relevantes de entre miles de páginas similares.

Al recolectar bandadas de palomas en grupos densos, Google puede procesar consultas de búsqueda a velocidades superiores a los motores de búsqueda tradicionales, que generalmente dependen de aves rapaces, gallinas empolladoras o aves acuáticas de movimiento lento para hacer sus clasificaciones de relevancia.

Cuando se envía una consulta de búsqueda a Google, se enruta a una cooperativa de datos donde monitorea las páginas de resultados flash a velocidades increíbles . Cuando una de las palomas en el grupo observa un resultado relevante , golpea una barra de acero recubierta de goma con su pico, que asigna a la página un valor de PigeonRank de uno. Por cada picotazo, el PigeonRank aumenta . Las páginas que reciben la mayor cantidad de picotazos se devuelven en la parte superior de la página de resultados del usuario y los demás resultados se muestran en orden jerárquico.


66
Nota: Esta página fue publicada para el Día de los Inocentes - 2002
dr jimbob

19

Es importante tener en cuenta un par de cosas sobre google:

  • Su base de datos es BigTable patentada : fue diseñada a medida por GOOGLE para adaptarse exactamente a sus necesidades

  • Su base de datos patentada está construida sobre su sistema de archivos patentado, Google File System , que fue diseñado, nuevamente por GOOGLE , para ser fácilmente expandible utilizando hardware común. Como Aaron mencionó en su respuesta, tienen una gran cantidad de servidores promedio en lugar de una pequeña cantidad de servidores muy potentes.

Almacenan tablas individuales en varias máquinas como una forma de hacer que el acceso sea más rápido: su software sabe qué datos están en qué máquina y, en lugar de pasar por un disco para localizarlos, puede ir directamente al servidor con la información relevante.



Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.