Cover Image for El nuevo modelo de inteligencia artificial de Meta identifica y rastrea todos los objetos en tus videos.

El nuevo modelo de inteligencia artificial de Meta identifica y rastrea todos los objetos en tus videos.

El modelo SAM 2 es capaz de identificar y seguir cada pelota en tiempo real.

Meta ha desarrollado un nuevo modelo de inteligencia artificial denominado Segment Anything Model 2 (SAM 2), que tiene la capacidad de etiquetar y seguir cualquier objeto en un video mientras este se desplaza. Este avance expande las funciones de su predecesor, SAM, que estaba limitado a imágenes, lo que abre nuevas oportunidades en la edición y análisis de videos.

La segmentación en tiempo real que ofrece SAM 2 representa un avance técnico significativo, ya que demuestra cómo la IA puede procesar imágenes en movimiento y distinguir entre los diferentes elementos en pantalla, incluso cuando se mueven o salen del encuadre. Este proceso se refiere a cómo el software identifica qué píxeles de una imagen pertenecen a cada objeto, facilitando el trabajo con imágenes complejas.

El modelo original de Meta, SAM, ha demostrado su utilidad en diversas aplicaciones, como la segmentación de imágenes de sonar de arrecifes de coral, el análisis de imágenes satelitales para facilitar esfuerzos de ayuda en desastres y la identificación de células para detectar cáncer de piel. La introducción de SAM 2 amplía notablemente las capacidades en video, algo que no se habría considerado viable hasta hace muy poco.

Para el lanzamiento de SAM 2, Meta presentó una base de datos de 50,000 videos utilizados para entrenar el modelo, además de 100,000 videos adicionales. Dada la exigencia computacional para la segmentación de video en tiempo real, aunque SAM 2 se encuentra disponible de forma gratuita en este momento, es probable que en el futuro cambie esta situación.

Con SAM 2, los editores de video podrán aislar y manipular objetos dentro de una escena de manera más eficiente que con las limitadas capacidades del software de edición actual. Asimismo, se prevé que SAM 2 transforme la experiencia de video interactivo, permitiendo a los usuarios seleccionar y modificar elementos en videos en vivo o espacios virtuales.

Meta considera que SAM 2 podría ser fundamental para el desarrollo y entrenamiento de sistemas de visión por computadora, especialmente en vehículos autónomos, donde el rastreo preciso y eficiente de objetos es crucial para interpretar y navegar en el entorno de manera segura. Las capacidades de SAM 2 podrían acelerar el proceso de anotación de datos visuales, proporcionando datos de alta calidad para estos sistemas de IA.

A pesar del mucho revuelo en torno a la generación de videos a partir de prompts de texto, la capacidad de edición que brinda SAM 2 podría tener un papel aún más relevante en la integración de la IA en la creación de videos. Aunque Meta cuenta con una ventaja en este campo, otros desarrolladores de IA también están trabajando en sus propias soluciones. Por ejemplo, investigaciones recientes de Google han desembocado en funciones de resumen de video y reconocimiento de objetos, mientras que Adobe, con sus herramientas Firefly AI, se centra en la edición fotográfica y de video.

  • IA
  • Edición de video
  • Segmentación de imágenes