Google responde al lanzamiento de Sora por parte de OpenAI.
DeepMind de Google presentó el modelo Veo 2 el lunes, un sistema de generación de video que puede producir clips de hasta dos minutos de duración y en resolución 4K.
El equipo de Google DeepMind ha presentado recientemente su modelo de generación de videos Veo 2, el cual representa un avance significativo en comparación con su versión anterior. Este nuevo modelo es capaz de crear clips de hasta dos minutos de duración y con una resolución de calidad 4K, lo que es seis veces más largo y cuatro veces más resolución que los clips de 20 segundos en 1080p que podía generar su predecesor, Sora. Sin embargo, estas cifras son límites teóricos, ya que en la actualidad, Veo 2 solo está disponible en VideoFX, una plataforma experimental de generación de videos de Google, donde los clips están limitados a ocho segundos y una resolución de 720p.
Además, el acceso a VideoFX es restringido; por lo tanto, no todos los usuarios pueden probar Veo 2 inmediatamente, aunque se espera que la compañía amplíe el acceso en las próximas semanas. Un vocero de Google informó que Veo 2 también podrá utilizarse en la plataforma Vertex AI una vez que se puedan escalar adecuadamente sus capacidades. Eli Collins comentó que la compañía seguirá refinando el modelo basándose en los comentarios de los usuarios y buscará integrar las nuevas capacidades de Veo 2 en distintos casos de uso dentro del ecosistema de Google, anticipando compartir más actualizaciones el año siguiente.
El modelo Veo 2 se destaca por ofrecer una mejor comprensión de la física, logrando así efectos de iluminación y dinámica de fluidos más realistas. También produce clips de video más nítidos, con texturas e imágenes más definidas y menos borrosas durante el movimiento. Entre sus características adicionales se encuentran controles de cámara mejorados, lo que permite a los usuarios posicionar el lente virtual con mayor precisión. No obstante, aún hay áreas que requieren mejoras, como la coherencia y consistencia en la adherencia a instrucciones complejas durante períodos prolongados, así como la creación de detalles intrincados y movimientos complejos.
Por otro lado, Google también anunció mejoras en su modelo de generación de imágenes, Imagen 3, que ahora puede crear resultados más brillantes y mejor compuestos. Esta actualización también incluirá sugerencias descriptivas basadas en palabras clave de las indicaciones del usuario, desplegando menús de términos relacionados con cada palabra clave dada.