¿Hay alguna manera de detectar el sesgo del motor de búsqueda?

Cada vez más se confía en los motores de búsqueda como guardianes de la información, sin embargo, los criterios utilizados por los motores de búsqueda para clasificar los resultados son opacos para los usuarios. ¿Cómo pueden los usuarios estar seguros de que sus resultados no están sesgados o alterados de alguna manera para beneficiar algún interés a expensas de la calidad de los resultados de búsqueda?

Los gobiernos exigen habitualmente que los proveedores de búsqueda eliminen o bajen la clasificación de los sitios web considerados políticamente indeseables. Las empresas pueden pagar a los proveedores para aumentar ciertos resultados sobre otros para aumentar sus ingresos. Los firewalls pueden interferir con los resultados antes de que se transmitan de nuevo a los usuarios.

Incluso los cambios aparentemente inocuos en los algoritmos de clasificación que pueden no parecer superficiales parecen estar sesgados, en realidad podrían estar diseñados para dañar sitios web que comparten algún atributo común (no relacionado con la calidad real).

¿Es posible detectar el sesgo del motor de búsqueda, por ejemplo, monitoreando los resultados durante un período de tiempo y evaluando si alguna "variable oculta" (tal vez una afiliación política) es un factor determinante en el cambio en la clasificación de los sitios web?

Un proveedor astuto puede disminuir gradualmente con el tiempo la clasificación de los sitios web específicos (y quizás sitios web aleatorios también para distraer a los usuarios). ¿Cuáles son los límites de cuánto sesgo puede introducir un proveedor sin detección? ¿O es posible ocultar siempre dicha interferencia seleccionando de manera desviada los criterios de clasificación ponderada que incidentalmente producen el resultado deseado (a través de "espionaje de datos").

¿Algo de esto cambia si los criterios de clasificación se hacen públicos? ¿Necesitamos código abierto los criterios que utilizan los motores de búsqueda?

Esto me recuerda el resultado de que detectar si el vendedor ha manipulado o no un instrumento financiero complejo como un CDO es equivalente a resolver el problema del subgrafo más denso:

http://www.cs.princeton.edu/~rongge/derivative.pdf

¡Gracias!

ds.algorithms data-mining

— han d.
fuente

Esta es una pregunta genial, pero la revisaría asegurándome de hacer solo una pregunta relacionada con la teoría. Lo más obvio es hacer de esto una solicitud de referencia y preguntar "¿alguien ya ha visto esto?". Si está seguro de que nadie lo ha hecho, entonces algo como "¿cómo se puede modelar esto formalmente?" podría ser una buena pregunta Si mantiene demasiadas preguntas, y algunas de ellas están potencialmente no relacionadas con la teoría, entonces podría cerrarse como "no es una pregunta real".

— Artem Kaznatcheev

Tenga en cuenta que hacer público un esquema de clasificación lo abre al ataque de los spammers. Una variante interesante sería: "¿existe un equivalente de 'clave pública' para las clasificaciones"

— Suresh Venkat

@SureshVenkat "hacer público un esquema de clasificación lo abre para atacar" parece que estás sugiriendo <s> seguridad </s> imparcialidad a través de la oscuridad;).

— Artem Kaznatcheev

no, pero por eso pregunté sobre las versiones de clave pública de los esquemas de clasificación.

— Suresh Venkat

Dado que se supone que ninguna de las partes que participan en el proceso de búsqueda son usuarios malintencionados, una solución normal es modelar el proceso como un juego con usuarios egoístas. Si se modela correctamente, podemos averiguar si es beneficioso para los motores de búsqueda hacer tal cosa o no. Entonces podemos diseñar un mecanismo para evitar tal manipulación.

— Helio

Obviamente, esta es una pregunta muy abierta, pero para mantenerse en el tema, aquí hay un enfoque de la teoría de CS para la idea de "justicia" y cómo hacerla cumplir.

"Equidad a través de la conciencia" Dwork, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Aaron Roth
fuente