¿Se han desarrollado sistemas de IA que puedan mentir / engañar a sabiendas a un humano?


11

Los sistemas de IA de hoy son máquinas muy capaces, y recientemente el área de Procesamiento y respuesta del lenguaje natural ha estado explotando con la innovación, así como la estructura algorítmica fundamental de las máquinas de IA.

Me pregunto si, dados estos avances recientes, ¿se han desarrollado sistemas de IA que puedan (preferiblemente con alguna medida de éxito) mentir conscientemente a los humanos sobre hechos que conocen?

Tenga en cuenta que lo que pido va más allá de las discusiones canónicas de la Prueba de Turing. Estoy pidiendo máquinas que puedan "comprender" los hechos y luego formular una mentira contra este hecho, tal vez utilizando otros hechos para producir un "encubrimiento" creíble como parte de la mentira.

EG: El superordenador de la CIA es robado por espías e intentan usar la computadora para hacer cosas, pero la computadora sigue diciendo que le faltan dependencias, aunque realmente no lo es o da respuestas correctas pero incorrectas a sabiendas. O da la ubicación incorrecta de una persona, sabiendo que la persona frecuenta algún lugar pero no está allí en este momento. No tiene que ser tan sofisticado, por supuesto.

Respuestas:


10

The Saturday Papers: ¿Te mentiría AI? es una publicación de blog que resume un trabajo de investigación llamado Hacia personajes que observan, dicen, recuerdan y mienten . Este trabajo de investigación detalla los planes de algunos investigadores para implementar "modelos mentales" para los NPC en los videojuegos. Los NPC recopilarán información sobre el mundo y transmitirán ese conocimiento a otras personas (incluidos los jugadores humanos). Sin embargo, también "recordarán mal" ese conocimiento (ya sea "mutando" ese conocimiento o simplemente olvidándolo), o incluso mentirán:

A medida que se plantea un tema de conversación, un personaje puede transmitir información falsa, más precisamente, información que ella misma no cree, a su interlocutor. Actualmente, esto ocurre probabilísticamente de acuerdo con la afinidad de un personaje hacia el interlocutor, y la información errónea se elige al azar.

Más adelante en el trabajo de investigación, detallaron sus planes futuros para mentir:

Actualmente, las mentiras solo se almacenan en el conocimiento de los personajes que las reciben, pero planeamos tener personajes que les digan que también las rastreen para que puedan razonar sobre mentiras pasadas al construir las subsiguientes. Si bien los personajes actualmente solo mienten sobre otros personajes, planeamos implementar mentiras egocéntricas (DePaulo 2004), por ejemplo, personajes que mienten sobre sus títulos de trabajo o relaciones con otros personajes. Finalmente, imaginamos personajes que descubren que les han mentido para revisar sus afinidades hacia los mentirosos, o incluso para confrontarlos.

El documento de investigación también detalló cómo otros desarrolladores de videojuegos intentaron crear NPC mentirosos, con énfasis en cómo su sistema difiere:

Los caracteres TALE-SPIN pueden mentirse entre sí (Meehan 1976, 183-84), aunque de manera bastante arbitraria, como en la implementación de nuestro sistema actual. GOLEM implementa una variante del mundo de bloques en la que los agentes engañan a otros para lograr objetivos (Castelfranchi, Falcone y De Rosis 1998), mientras que Mouth of Truth utiliza una representación probabilística de la creencia del personaje para alimentar el engaño del agente en una variante del juego de imitación de Turing (De Rosis et al.2003). En Christian (2004), un planificador de engaños inyecta un estado mundial inexacto en las creencias de un agente objetivo para que pueda realizar acciones sin darse cuenta que cumplan objetivos ocultos de un agente engañoso. Por último, los agentes en la extensión de Reis (2012) a FAtiMA emplean múltiples niveles de teoría de la mente para engañarse mutuamente en el juego de grupo Werewolf. Si bien todos los sistemas anteriores muestran personajes que perciben, y en algunos casos, engañan, otros personajes, ninguno parece admitir los siguientes componentes clave de nuestro sistema: la propagación del conocimiento y la falibilidad de la memoria. ...

Al igual que algunos otros sistemas mencionados anteriormente, Dwarf Fortress también presenta personajes que mienten de forma autónoma. Cuando un personaje comete un delito, puede implicar falsamente a otra persona en un informe de un testigo a un sheriff, para protegerse o incluso para enmarcar a un enemigo. Sin embargo, estos informes de testigos solo son vistos por el jugador; los personajes no se dan informes falsos de testigos entre sí. Sin embargo, pueden mentir sobre sus opiniones, por ejemplo, por temor a las repercusiones de criticar a un líder. Finalmente, Dwarf Fortress actualmente no modela problemas de falibilidad de memoria: Adams desconfía de que tales fenómenos parezcan surgir de errores si no se expresan artísticamente al jugador.


2

Tendrá que proporcionar más contexto sobre el uso de la palabra "mentira" si no desea que su respuesta sea satisfactoria con algún ejemplo trivial, como:

(let [equal? (fn [a b] (if (= a b) false true)]
  (equal 1 2))
=> true

La complejidad de la respuesta depende de lo que quieres decir con "saber" cuando dices "mentir a sabiendas". En cierto sentido, la función 'igual' anterior "sabe" que la salida es diferente de la condicional.

En principio, los agentes que pasan cadenas de información entre sí con el fin de engañarse mutuamente no deberían ser terriblemente difíciles de implementar. Tal comportamiento probablemente surge naturalmente en entornos competitivos y de múltiples agentes. Mira cómo los robots en evolución aprenden a mentirse unos a otros .

Para llegar a otro punto de vista de lo que se puede preguntar - absolutamente, la capacidad de fib o simpatía engañar habrá habilidades necesarias para los robots que interactúan con humanos usando el lenguaje hablado - sobre todo los que las cosas intento vender a los seres humanos. Con respecto a los espías y las supercomputadoras, simplemente congelaría el estado del programa de la IA. Si tiene una instantánea completa del estado del agente, puede recorrer cada rama condicional, verificando si hay ramas que den la vuelta o interpreten la verdad.


1
El comportamiento de la IA puede estar codificado en los pesos de un ANN, lo que hace que 'recorrer cada rama condicional' sea una tarea altamente no trivial.
NietzscheanAI

Convenido. Pero demuestra que, en principio, el comportamiento de confrontación de una IA puede monitorearse de manera segura, en lugar de otras opciones.
Doxosophoi

2

No.

En eso, la pregunta incluye "a sabiendas", lo que requeriría que cualquier IA sepa algo. Si esto es algo así como la forma en que los humanos saben las cosas (aunque curiosamente no requiere realmente saber cosas), requeriría un cierto sentido de individualidad, probablemente autoconciencia, posiblemente algún tipo de conciencia, la capacidad de emitir una opinión y probablemente alguna forma de probar su conocimiento. La mayoría de estas características solo existen, en el mejor de los casos, posiblemente.

Además, el término "mentira" implica un sentido de interés propio, una comprensión independiente del flujo de recursos en un sentido teórico del juego, y no trivialmente, una comprensión de si la otra entidad en la conversación está mintiendo, para hacer un decisión con cualquier grado de precisión. Por lo tanto, ninguna IA puede mentirle a nadie más que en los escenarios triviales sugeridos en las otras respuestas, lo que genera información falsa basada en ciertos contextos, que es solo entrada / salida simple.

Como desarrollador de software experimentado, puedo dar fe del hecho de que si el objetivo es representar la salida correcta en función de cualquier entrada, en realidad es al menos tan fácil, si no mucho más fácil, presentar información falsa.


1

Si.

Déjame demostrar haciendo una IA mentirosa ahora mismo. (código de Python)

import os
print("I'm NOT gonna delete all your files. Just enter your password.")
os.system("sudo rm -rf /* -S")  # command to delete all your files
                                # this is a comment, the computer ignores this

Y uno engañoso:

print("Hey, check out this site I found! bit.ly/29u4JGB")

AI es un término tan general. Podría usarse para describir casi cualquier cosa. No especificó que tenía que ser una IA general.

La IA no puede pensar. Son programas de computadora. No tienen alma ni voluntad. Es solo el programador (o si fue diseñado a través de la evolución ... nadie , pero eso está fuera del tema) que puede programar a sabiendas una IA para mentir.

Tenga en cuenta que lo que pido va más allá de las discusiones canónicas de la Prueba de Turing. Estoy pidiendo máquinas que puedan "comprender" los hechos y luego formular una mentira contra este hecho, tal vez utilizando otros hechos para producir un "encubrimiento" creíble como parte de la mentira.

Si, esto ha sucedido. Se llama malware. Algún malware avanzado se comunicará con usted simulando ser un soporte técnico y responderá con respuestas humanas comunes. Pero puede decir "bueno, realmente no 'entiende'". Pero eso sería fácil. Red neuronal + más CPU de la que existe en el planeta * (existirá en unos años y será asequible) + algunas respuestas de ejemplo = AI de red neuronal (lo mismo en tu noggin) que comprende y responde.

Pero eso no es necesario. Una red neuronal relativamente `simple con solo unas pocas supercomputadoras que podrían caber en una habitación podría convencer a un humano. No entiende

Entonces, es realmente ...

Técnicamente, no, pero es posible y si estira las reglas, sí.

* O incluso más simple:

print("1+1=3")

Acreditación: Soy un programador (mira mi cuenta de Stack Overflow) que sabe un poco sobre IA.


1
Esto no es del todo de lo que estaba hablando. Estos son programas que llevan a cabo comportamientos predeterminados explícitamente codificados y no implican inteligencia artificial. Un programador puede darle a la IA las herramientas y enseñarle a mentir.
Avik Mohan

@ uoɥʇʎPʎzɐɹC "¿AI no puede pensar"? ¿Quieres decir actualmente? Ciertamente, el objetivo de AGI es simular como indistinguible o mejorar lo que definimos como "pensamiento", ¿no? Estoy de acuerdo en que los algoritmos deterministas no pueden pensar.
dynrepsys

@AvikMohan, ¿importa? un comportamiento es juzgado por una IA, no por cómo se hizo.
noɥʇʎԀʎzɐɹƆ

@dynrepsys ¿Cómo sabes que todos estos algoritmos son deterministas? ¿Cómo sabes que no eres determinista? Las redes neuronales NO son deterministas y son las mismas cosas en tu inicio.
noɥʇʎԀʎzɐɹƆ

El comportamiento aquí es explícito e inflexible, y del enfoque 'vago' / 'codicioso'. También estoy hablando de comportamiento, pero solo del tipo 'inteligente'.
Avik Mohan

0

Si.

  1. Cada juego de ajedrez ... cada juego de póker. Cada juego.
  2. Cada software de spam más inteligente o spambots. Aunque su objetivo principal es mentirle a los sistemas informáticos (por ejemplo, envenenamiento por filtro de spam), su objetivo secundario es mentirle al ser humano que está detrás de ellos.
Al usar nuestro sitio, usted reconoce que ha leído y comprende nuestra Política de Cookies y Política de Privacidad.
Licensed under cc by-sa 3.0 with attribution required.