¿Se ha utilizado con éxito la Prueba 2.0 de Lovelace en un entorno académico?

En octubre de 2014, el Dr. Mark Riedl publicó un enfoque para probar la inteligencia artificial, llamado "Prueba Lovelace 2.0" , después de inspirarse en la Prueba Lovelace original (publicada en 2001). Mark creía que la prueba original de Lovelace sería imposible de aprobar y, por lo tanto, sugirió una versión más débil y más práctica.

Lovelace Test 2.0 supone que para que una IA sea inteligente, debe exhibir creatividad. Del propio documento:

La prueba Lovelace 2.0 es la siguiente: el agente artificial a se desafía de la siguiente manera:

a debe crear un artefacto o del tipo t;

o debe ajustarse a un conjunto de restricciones C donde ci ∈ C es cualquier criterio expresable en lenguaje natural;

un evaluador humano h, que ha elegido ty C, está convencido de que o es una instancia válida de ty cumple con C; y

un árbitro humano r determina que la combinación de t y C no es poco realista para un humano promedio.

Dado que es posible que un evaluador humano presente algunas restricciones bastante fáciles para que una IA las supere, se espera que el evaluador humano continúe presentando restricciones cada vez más complejas para la IA hasta que la IA falle. El objetivo de Lovelace Test 2.0 es comparar la creatividad de diferentes IA, no proporcionar una línea divisoria definida entre 'inteligencia' y 'no inteligencia' como lo haría la Prueba de Turing.

Sin embargo, tengo curiosidad acerca de si esta prueba realmente se ha utilizado en un entorno académico, o si solo se ve como un experimento mental en este momento. La prueba de Lovelace parece fácil de aplicar en entornos académicos (solo necesita desarrollar algunas restricciones medibles que pueda usar para probar el agente artificial), pero también puede ser demasiado subjetivo (los humanos pueden estar en desacuerdo sobre los méritos de ciertas restricciones, y si un artefacto creativo producido por una IA realmente cumple con el resultado final).

history intelligence-testing

— Izquierda SE en 10_6_19
fuente

No.

TL; DR: Lovelace Test 2.0 es muy vago, por lo que no es adecuado para la evaluación de la inteligencia. También es generalmente ignorado por los investigadores de Creatividad Computacional, que ya tienen sus propias pruebas para evaluar la creatividad.

Respuesta más larga: según Google Scholar, hay 10 referencias al documento "Lovelace Test 2.0". Todas esas referencias existen simplemente para señalar que existe Lovelace Test 2.0. De hecho, al menos dos de los artículos que consulté ( Un enfoque novedoso para identificar un comportamiento autoconsciente similar al humano y FraMoTEC: un marco para la construcción modular del entorno de tareas para evaluar los sistemas de control adaptativo ) propusieron sus propios pruebas.

Uno de los autores que escribió el artículo FraMoTEC también escribió su tesis sobre FraMoTEC e indirectamente criticó la Prueba Lovelace 2.0 y otras pruebas similares:

El problema de la sala Piaget-MacGyver [Bringsjord y Licato, 2012], Lovelace Test 2.0 [Riedl, 2014] y el problema de Toy Box [Johnston, 2010] vienen con la advertencia de ser definidos de manera muy vaga: es probable que estos métodos de evaluación lleguen con una evaluación razonable de inteligencia, pero es muy difícil comparar dos agentes (o controladores) diferentes que participan en sus propias evaluaciones específicas de dominio, que es lo que sucede con frecuencia cuando los agentes se adaptan para aprobar evaluaciones específicas.

Otro problema importante con Lovelace Test 2.0 es que hay una proliferación de otras pruebas para "medir" la creatividad de la IA. Evaluación de la evaluación: evaluación del progreso en la investigación de la creatividad computacional , publicada por Anna Jordanous en 2011 (3 años antes de la invención de Lovelace Test 2.0) analizó trabajos de investigación sobre la creatividad de IA y escribió:

De los 18 documentos que aplicaron metodologías de evaluación de la creatividad para evaluar la creatividad de su sistema, ninguna metodología surgió como estándar en toda la comunidad. El marco de trípode creativo de Colton ( Colton 2008 ) se utilizó con mayor frecuencia (6 usos), con 4 documentos que utilizan los criterios empíricos de Ritchie ( Ritchie 2007 ).

Eso deja 10 documentos con diversos métodos de evaluación de la creatividad.

El objetivo de "Evaluar la evaluación" era estandarizar el proceso de evaluación de la creatividad, para evitar la posibilidad de que el campo se estancara debido a la proliferación de tantas pruebas de creatividad. Anna Jordanous seguía interesada en evaluar las pruebas de creatividad y publicar artículos como "Un paso atrás para avanzar hacia adelante: establecer estándares para la metaevaluación de la creatividad computacional" y cuatro perspectivas PPP sobre creatividad computacional .

"Evaluación de la evaluación" proporciona algunos comentarios para explicar la proliferación de sistemas para evaluar la creatividad:

Los estándares de evaluación no son fáciles de definir. Es difícil evaluar la creatividad y aún más difícil describir cómo evaluamos la creatividad, tanto en la creatividad humana como en la creatividad computacional. De hecho, incluso la definición misma de creatividad es problemática (Plucker, Beghetto y Dow 2004). Es difícil identificar lo que implica "ser creativo", por lo que no hay puntos de referencia o verdades básicas para medir.

El hecho de que ya existan tantas pruebas de creatividad (en la medida en que Jordanous puede hacer una carrera académica al estudiarlas) significa que es muy difícil que cualquier prueba nueva (como la Prueba Lovelace 2.0) sea notada (mucho menos citada ) ¿Por qué querrías usar algo como Lovelace Test 2.0 cuando hay tantas otras pruebas que podrías usar en su lugar?

— Izquierda SE en 10_6_19
fuente