Es un posible efecto secundario.
Cualquier agente orientado a objetivos podría, bueno, simplemente hacer cosas que logren sus objetivos sin tener en cuenta los efectos secundarios que no son importantes para estos objetivos.
Si mis objetivos incluyen un espacio de vida ordenado, puedo transformar mi jardín en un agradable césped plano o pavimento mientras elimino el complejo ecosistema de la vida que existía antes, porque no me importa en particular eso.
Si los objetivos de una IA poderosa en particular incluyen hacer algo a gran escala, y de alguna manera no se preocupa particularmente por el ecosistema complejo actual, entonces ese ecosistema podría desaparecer en el proceso. No es necesario querer o eliminarnos. Si simplemente no somos relevantes para sus objetivos, entonces estamos hechos de materiales y ocupamos espacio que podría querer usar para otra cosa.
Somos una amenaza para la mayoría de los objetivos.
Cualquier agente orientado a objetivos puede querer asegurarse de que pueda cumplir sus objetivos. Cualquier agente inteligente tratará de anticipar las acciones de otros agentes que pueden evitar que logren esos objetivos, y tomará medidas para asegurarse de que tengan éxito de todos modos. En muchos casos, es más simple eliminar esos otros agentes en lugar de garantizar que sus esfuerzos fracasen.
Por ejemplo, mis objetivos pueden incluir almacenar una bolsa de azúcar en una casa de campo para poder hacer panqueques cuando visite sin traer todos los ingredientes cada vez. Sin embargo, si lo dejo allí, es probable que las ratas se lo coman durante el invierno. Puedo tomar todo tipo de precauciones para almacenarlo mejor, pero las ratas son inteligentes y astutas, y existe una clara posibilidad no trivial de que de todos modos logren alcanzar su objetivo, por lo que una precaución adicional efectiva es matar a las ratas antes de que tengan la oportunidad intentar.
Si los objetivos de una IA poderosa en particular son hacer X; puede llegar a comprender que (¿algunos?) los humanos en realidad podrían no querer X sino Y en su lugar. También puede deducir fácilmente que algunos de esos humanos podrían hacer activamente cosas que eviten X y / o intenten apagar la IA. Hacer cosas que aseguren que se logre el objetivo es más o menos lo que hace un agente de búsqueda de objetivos; en este caso, si la existencia de humanos no es estrictamente necesaria para el objetivo X, entonces eliminarlos se convierte en una sólida estrategia de reducción de riesgos. No es estrictamente necesario y también puede tomar todo tipo de precauciones, pero al igual que en mi ejemplo de las ratas, los humanos son inteligentes y astutos, y existe una clara posibilidad no trivial de que aún logren lograr su objetivo. objetivos (para que X no suceda como lo desea AI), por lo que una precaución adicional efectiva podría estar matándolos antes de que tengan la oportunidad de intentarlo.