
El extenso informe de 145 páginas de DeepMind sobre la seguridad de la AGI podría no persuadir a los escépticos.
DeepMind dio a conocer un extenso documento sobre su estrategia para garantizar la seguridad de la inteligencia general artificial. Sin embargo, algunos expertos no están completamente convencidos de las bases en las que se fundamenta.
El miércoles, Google DeepMind publicó un extenso documento sobre su enfoque de seguridad respecto a la Inteligencia General Artificial (AGI), definida aproximadamente como una IA capaz de realizar cualquier tarea que pueda hacer un ser humano. La AGI es un tema controvertido en el ámbito de la inteligencia artificial, ya que algunos críticos consideran que es más un sueño inalcanzable que una realidad posible. En contraste, otros, incluidos laboratorios de IA como Anthropic, advierten que su llegada es inminente y que podría causar daños catastróficos si no se implementan las salvaguardias adecuadas.
El trabajo de 145 páginas, coautorado por Shane Legg, cofundador de DeepMind, anticipa que la AGI podría materializarse para 2030, lo que podría acarrear lo que los autores describen como “daños severos”. Aunque el documento no ofrece una definición clara de estos daños, menciona ejemplos alarmantes como “riesgos existenciales” que podrían “destruir permanentemente a la humanidad.” Los autores expresan: “Anticipamos el desarrollo de una AGI Excepcional antes de finales de esta década,” definiendo un tal sistema como aquel que alcanza al menos el percentil 99 de habilidades en tareas no físicas, incluyendo tareas metacognitivas como el aprendizaje de nuevas habilidades.
Desde el inicio, el documento compara el enfoque de DeepMind para mitigar los riesgos de la AGI con el de Anthropic y OpenAI. Según DeepMind, Anthropic enfatiza menos en “entrenamiento robusto, monitoreo y seguridad,” mientras que OpenAI es considerada demasiado optimista en su enfoque hacia la “automatización” de investigaciones de seguridad en IA, conocidas como investigación de alineación. Además, el documento expresa dudas sobre la posibilidad de que surja una IA superinteligente, es decir, una IA que pueda realizar trabajos mejor que cualquier humano. A pesar de las afirmaciones recientes de OpenAI de que su enfoque está cambiando de AGI a superinteligencia, los autores de DeepMind no están convencidos de que, a falta de “innovación arquitectónica significativa,” estos sistemas superinteligentes emerjan pronto.
Sin embargo, el documento considera plausible que los paradigmas actuales permitan una “mejora recursiva de la IA”: un ciclo de retroalimentación positiva en el que la IA realiza su propia investigación para crear sistemas de IA más sofisticados, lo que podría resultar extremadamente peligroso, según los autores. En líneas generales, el documento propone el desarrollo de técnicas destinadas a restringir el acceso de actores malintencionados a una AGI hipotética, fomentar la comprensión de las acciones de los sistemas de IA, y “endurecer” los entornos en que la IA puede operar. Reconoce que muchas de estas técnicas son incipientes y presentan “problemas de investigación abiertos,” pero advierte contra ignorar los desafíos de seguridad que podrían estar a la vista.
Los autores manifiestan: “La naturaleza transformadora de la AGI tiene el potencial de generar tanto beneficios increíbles como daños severos. Por lo tanto, para desarrollar la AGI de manera responsable, es crítico que los desarrolladores de IA en la frontera planifiquen proactivamente para mitigar daños severos.” No obstante, algunos expertos critican las premisas del documento. Heidy Khlaaf, científica principal de IA en el AI Now Institute, sostiene que el concepto de AGI es tan poco claro que no puede ser evaluado rigurosamente de forma científica. Por su parte, Matthew Guzdial, profesor asistente en la Universidad de Alberta, duda de que la mejora recursiva de la IA sea realista en la actualidad.
Guzdial señala: “La mejora recursiva es la base de los argumentos sobre la singularidad de la inteligencia, pero nunca hemos visto evidencia de que funcione.” Sandra Wachter, investigadora en tecnología y regulación en Oxford, argumenta que una preocupación más realista radica en que la IA se refuerce a sí misma con “salidas inexactas.” Según ella, la proliferación de resultados de IA generativa en internet y el reemplazo gradual de datos auténticos conducen a que los modelos aprendan de sus propias salidas, que pueden estar plagadas de desinformación. “Los chatbots se utilizan principalmente para buscar y encontrar la verdad. Eso significa que estamos en riesgo constante de recibir información incorrecta y creerla porque se presenta de manera convincente,” añadió.
El documento de DeepMind, a pesar de su exhaustividad, parece poco probable que resuelva los debates sobre la viabilidad de la AGI y las áreas de seguridad en IA que requieren atención urgente.