
Amazon presenta un nuevo modelo de voz basado en inteligencia artificial, Nova Sonic.
Amazon ha presentado un nuevo modelo de voz basado en inteligencia artificial, llamado Nova Sonic, que según la compañía es competitivo con los modelos de voz avanzados de OpenAI y Google.
El martes, Amazon presentó su nuevo modelo de inteligencia artificial generativa, Nova Sonic, que tiene la capacidad de procesar voz de manera nativa y generar un habla que suena natural. Según la empresa, el rendimiento de Nova Sonic compite con los modelos de voz de vanguardia de OpenAI y Google en métricas que evalúan la velocidad, el reconocimiento del habla y la calidad conversacional. Este nuevo modelo es la respuesta de Amazon a los modelos de voz más recientes, como el que impulsa el Modo de Voz de ChatGPT, que ofrecen una experiencia más natural en comparación con los modelos más rígidos de las primeras versiones de Amazon Alexa.
Los avances tecnológicos recientes han dejado atrás a los modelos más antiguos y a los asistentes digitales que los sustentan, como Alexa y Siri de Apple, quienes ahora parecen bastante rígidos. Nova Sonic está disponible a través de Bedrock, la plataforma de desarrollo de Amazon para construir aplicaciones de inteligencia artificial empresarial, utilizando una nueva API de streaming bidireccional. En un comunicado, Amazon destacó que Nova Sonic es "el modelo de voz de IA más rentable" del mercado, costando alrededor de un 80% menos que el modelo GPT-4o de OpenAI.
Partes de Nova Sonic ya están siendo utilizadas en Alexa+, la versión mejorada del asistente digital de Amazon, según Rohit Prasad, vicepresidente senior y científico jefe de AGI en la empresa. Prasad mencionó en una entrevista que Nova Sonic se basa en la experiencia de Amazon en "sistemas de orquestación grandes", que constituyen la base técnica de Alexa. En comparación con otros modelos de voz de IA, Nova Sonic sobresale en dirigir las solicitudes de los usuarios a diferentes APIs, lo que le permite "saber" cuándo necesita obtener información en tiempo real de internet, procesar una fuente de datos específica o realizar acciones en aplicaciones externas, utilizando la herramienta adecuada.
Durante un diálogo bidireccional, Nova Sonic espera para hablar "en el momento apropiado", considerando las pausas e interrupciones del hablante. Además, genera una transcripción de texto del habla del usuario, que los desarrolladores pueden utilizar para diversas aplicaciones. Según Prasad, este modelo presenta menos errores de reconocimiento de voz que otros modelos, lo que implica que es hábil en comprender la intención del usuario, incluso si habla de manera poco clara, comete errores o se encuentra en un ambiente ruidoso.
En un banco de pruebas que mide el reconocimiento del habla en distintos idiomas y dialectos, conocido como Multilingual LibriSpeech, Amazon indicó que Nova Sonic alcanzó una tasa de error de palabras (WER) del 4.2% al promediar en inglés, francés, italiano, alemán y español. Esto significa que aproximadamente cuatro de cada 100 palabras del modelo diferían de una transcripción humana en esos idiomas. En otro banco de pruebas que evaluó interacciones ruidosas con múltiples participantes, llamado Augmented Multi Party Interaction, Nova Sonic fue un 46.7% más preciso en términos de WER en comparación con el modelo de transcripción GPT-4o de OpenAI. Además, este modelo posee una velocidad líder en la industria, con una latencia promedio de percepción de 1.09 segundos, superando al modelo GPT-4o, que responde en 1.18 segundos, según evaluaciones de Artificial Analysis.
Prasad destacó que Nova Sonic forma parte de la estrategia más amplia de Amazon para construir inteligencia general artificial (AGI), que la compañía define como "sistemas de IA que pueden hacer cualquier cosa que un humano pueda hacer en una computadora". De cara al futuro, asegura que Amazon planea lanzar más modelos de IA capaces de comprender diferentes modalidades, incluyendo imagen, video y voz, así como otros datos sensoriales relevantes al interactuar con el mundo físico. La división de AGI de Amazon, bajo la supervisión de Prasad, parece tener un papel cada vez más importante en la estrategia de productos de la empresa. Recientemente, Amazon lanzó una vista previa de Nova Act, un modelo de IA basado en navegadores que parece estar impulsando elementos de Alexa+ y la función Comprar para mí de Amazon. Desde el lanzamiento de Nova Sonic, la compañía tiene la intención de ofrecer más de sus modelos internos de IA para que los desarrolladores puedan utilizarlos.