Cover Image for Meta lanza SeamlessM4T, un sofisticado modelo de inteligencia artificial que traduce y transcribe voz y texto en 101 idiomas.

Meta lanza SeamlessM4T, un sofisticado modelo de inteligencia artificial que traduce y transcribe voz y texto en 101 idiomas.

Despedida a la Torre de Babel. La inteligencia artificial de Meta puede manejar 101 idiomas y produce traducciones de voz sintetizadas en 36 lenguas distintas.

Meta ha desarrollado SeamlessM4T, una innovadora solución de inteligencia artificial que permite la traducción y transcripción de voz y texto en un total de 101 idiomas. Esta tecnología, que podría acercarnos a la visión del traductor universal de la obra "La Guía del Autoestopista Galáctico", busca resolver las dificultades de la comunicación en múltiples idiomas.

El nuevo modelo de Meta se destaca por su capacidad de proporcionar traducciones instantáneas tanto de voz a voz como de texto a voz, manteniendo la expresión y el tono de los hablantes. SeamlessM4T, que se traduce como "Traducción de Máquinas Multilingüe y Multimodal", integra múltiples funciones en un único sistema, ofreciendo una mejora en la exactitud de traducción que oscila entre un 8 % y un 23 %. Su resistencia al ruido de fondo y a las variaciones en el habla también ha mostrado un incremento del 50 %.

Los investigadores han prestado especial atención a factores como la toxicidad de las traducciones y los sesgos de género, implementando estrategias para mitigar estos problemas durante el entrenamiento y la inferencia del modelo. Marta Costa-Jussà, que lidera este proyecto en la división de inteligencia artificial de Meta, menciona que el modelo fue capacitado utilizando un millón de horas de audio de charla natural, lo que amplía sus capacidades de traducción a idiomas que no estaban específicamente en su formación.

Meta ha decidido poner a disposición del público el modelo y sus datos con fines no comerciales, incentivando así la investigación y el desarrollo en el ámbito de la traducción de voz. Sin embargo, SeamlessM4T aún enfrenta desafíos notables, especialmente en contextos como medicina y derecho, donde la exactitud es crucial. La traducción de nombres propios y expresiones coloquiales, junto con el reconocimiento de acentos y sesgos de género, sigue requiriendo perfeccionamiento.

La traducción automática ha visto un notable avance en las últimas décadas, en gran medida por el uso de redes neuronales apoyadas en grandes volúmenes de datos. Sin embargo, la escasez de datos para idiomas menos hablados limita el impacto de la traducción automática. A pesar de esto, el equipo de Meta ha aprovechado su experiencia con proyectos previos, como No Language Left Behind, para expandir su capacidad de traducción a idiomas con menos representación en Internet.

Para entrenar SeamlessM4T, se recopilaron millones de horas de discursos y sus respectivas traducciones, usando diversas fuentes, incluidas las Naciones Unidas. Esto permitió asociar automáticamente fragmentos de audio y texto entre diferentes idiomas, mejorando así la eficacia del sistema.