Cover Image for Nuevo asistente de voz AI supera a OpenAI en una de las funciones más esperadas de ChatGPT

Nuevo asistente de voz AI supera a OpenAI en una de las funciones más esperadas de ChatGPT

La nueva asistente de voz AI Moshi de Kyutai ofrece conversaciones en tiempo real.

OpenAI ha retrasado la impresionante modalidad de voz de ChatGPT, lo que ha molestado a muchos fans del chatbot de inteligencia artificial, pero ahora podrían haber encontrado una alternativa. El desarrollador francés de inteligencia artificial Kyutai ha presentado un asistente de inteligencia artificial de voz en tiempo real llamado Moshi. Moshi está diseñado para brindar conversaciones realistas con los usuarios a través de la voz, al igual que Alexa o Google Assistant, pero está alimentado por los grandes modelos de lenguaje que subyacen a ChatGPT y sus rivales, en este caso, el modelo Helium 7B. Según Kyutai, Moshi puede hablar en varios acentos y tiene 70 estilos emocionales y de habla diferentes. Incluso puede manejar dos flujos de audio simultáneamente, lo que le permite escuchar y hablar al mismo tiempo.

El desarrollo de Moshi por parte de Kyutai involucró el ajuste fino de más de 100,000 diálogos sintéticos creados utilizando la tecnología de Texto a Voz (TTS, por sus siglas en inglés). El objetivo era ayudar a enseñar a Moshi los matices y tonos de la comunicación humana. La marca incluso colaboró con un artista de voz profesional para mejorar la calidad de la voz de Moshi.

Este asistente de inteligencia artificial integra tanto el entrenamiento de texto como de audio, optimizado para múltiples plataformas, lo que significa que puede funcionar en dispositivos como computadoras portátiles sin necesidad de interactuar con la nube. La empresa presenta esto como una forma de mantener la privacidad y seguridad al evitar la transmisión de datos sensibles a través de internet.

Kyutai ha proclamado que Moshi será un proyecto de código abierto, incluyendo los códigos y marcos del modelo, proporcionando una base para una mayor innovación. Este enfoque de código abierto también puede ayudar a mitigar las quejas que las grandes empresas de inteligencia artificial están enfrentando en relación con la seguridad y la ética de sus modelos cerrados. Los inversores de Kyutai, incluido el multimillonario francés Xavier Niel, están respaldando este enfoque de código abierto.

Kyutai también está trabajando en sistemas de identificación de audio de inteligencia artificial, marca de agua y seguimiento de firmas que se incorporarán a Moshi. Estas características ayudarán a identificar el audio generado por inteligencia artificial, promoviendo la responsabilidad y la trazabilidad, al tiempo que aseguran que el contenido generado por IA pueda ser monitoreado y verificado.

A pesar de que Moshi aún se encuentra en desarrollo, la modalidad de voz en la presentación es impresionante. Este enfoque de voz podría actuar como un catalizador para otras versiones habilitadas para voz de los rivales de ChatGPT o acelerar la adición de LLM a Alexa y otros asistentes de voz en caso de que Moshi se vuelva popular.