Cover Image for La nueva herramienta de inteligencia artificial que fue considerada 'demasiado peligrosa' para ser lanzada

La nueva herramienta de inteligencia artificial que fue considerada 'demasiado peligrosa' para ser lanzada

Microsoft ha comunicado que su nuevo AI sintetizador de voz VALL-E 2 es demasiado capaz para ser lanzado de forma segura al público.

En el 2019, OpenAI decidió no publicar toda su investigación sobre el desarrollo de GPT2 debido al temor de que fuera "demasiado peligroso" hacerlo público. En una situación similar, el principal respaldo financiero de OpenAI, Microsoft, emitió un pronunciamiento respecto a su nueva inteligencia artificial VALL-E 2. Este sistema es una inteligencia artificial de síntesis de voz zero-shot text-to-speech (TTS), lo que significa que puede recrear un habla hiperrealista basada en solo unos segundos de audio de ejemplo.

Según el equipo de investigación, VALL-E 2 "supera a sistemas anteriores en robustez del habla, naturalidad y similitud del locutor. Es el primero en su tipo en alcanzar paridad humana en estos puntos de referencia". Reportadamente, el sistema incluso puede manejar frases difíciles de pronunciar debido a su complejidad estructural o repetitividad, como trabalenguas. Existen múltiples usos beneficiosos potenciales para este sistema, como ayudar a personas con afasia o esclerosis lateral amiotrófica (comúnmente conocida como ELA o enfermedad de Lou Gehrig) a hablar nuevamente, aunque sea a través de una computadora, así como en educación, entretenimiento, periodismo, chatbots y traducción, o como características de accesibilidad y sistemas de "respuesta de voz interactiva", como Siri.

Sin embargo, el equipo también reconoce numerosas oportunidades para que el público haga un uso indebido de la tecnología, "como la suplantación de identificación de voz o la impersonación de un orador específico". Por lo tanto, la inteligencia artificial solo estará disponible para fines de investigación. "Actualmente, no tenemos planes de incorporar VALL-E 2 en un producto o ampliar el acceso al público", escribió el equipo. "Si sospecha que VALL-E 2 se está utilizando de manera abusiva, ilegal o que infringe sus derechos o los de otras personas, puede informarlo en el Portal de Informe de Abuso".

Microsoft no está solo en sus esfuerzos por entrenar a las computadoras para hablar como lo hacen los humanos. Google con Chirp, ElevenLabs con Iconic Voices y Voicebox de Meta también buscan realizar funciones similares. Sin embargo, estos sistemas han sido objeto de escrutinio ético al ser utilizados repetidamente para estafar a víctimas desconocidas al imitar la voz de un ser querido o de un famoso. Y a diferencia de las imágenes generadas, actualmente no hay una manera efectiva de "marcar con agua" el audio generado por inteligencia artificial.