Cover Image for ¿Los modelos de IA "visual" en realidad son ciegos?

¿Los modelos de IA "visual" en realidad son ciegos?

Las últimas versiones de modelos de lenguaje, como GPT-4o y Gemini 1.5 Pro, se promocionan como "multi-modales", capaces de comprender imágenes y audio además de texto.

La nueva generación de modelos de lenguaje, como GPT-4o y Gemini 1.5 Pro, se promocionan como "multimodales", capaces de entender imágenes y audio además de texto. Sin embargo, un nuevo estudio deja en claro que realmente no ven de la forma en que se esperaría. De hecho, es posible que no vean en absoluto. Desde el principio, nadie ha afirmado cosas como "¡Esta IA puede ver como lo hacen las personas!" (Bueno... tal vez algunos lo hayan hecho). Pero en la comercialización y pruebas utilizadas para promocionar estos modelos se usan frases como "capacidades de visión", "comprensión visual", y así sucesivamente. Hablan sobre cómo el modelo ve y analiza imágenes y videos, para poder hacer desde problemas de tarea hasta ver un partido por ti. Aunque las afirmaciones de estas empresas están hábilmente formuladas, está claro que quieren expresar que el modelo ve en algún sentido de la palabra. Y lo hace, pero de manera similar a como resuelve problemas matemáticos o escribe historias: emparejando patrones en los datos de entrada con patrones en sus datos de entrenamiento. Esto hace que los modelos fallen de la misma manera en ciertas otras tareas que parecen triviales, como elegir un número al azar.

Un estudio, informal en ciertos aspectos pero sistemático, sobre la comprensión visual de los actuales modelos de IA multimodales fue realizado por investigadores de la Universidad de Auburn y la Universidad de Alberta. Plantearon a los mayores modelos multimodales una serie de tareas visuales muy simples, como preguntar si dos formas se superponen, cuántos pentágonos hay en una imagen o qué letra está circulada en una palabra. "Nuestras 7 tareas son extremadamente simples, donde los humanos tendrían un rendimiento del 100% de precisión. Esperamos que las IAs hagan lo mismo, pero actualmente NO lo hacen", escribió la coautora Anh Nguyen en un correo electrónico a TechCrunch. "Nuestro mensaje es 'miren, estos mejores modelos todavía están fallando'."

Por ejemplo, en la prueba de superposición de formas: una de las tareas de razonamiento visual más simples concebibles. Cuando se presentaban dos círculos ligeramente superpuestos, tocándose o con cierta distancia entre ellos, los modelos no podían acertar consistentemente. Cierto es que GPT-4o lo hacía bien más del 95% de las veces cuando estaban separados, ¡pero a distancias cercanas o nulas, solo lo lograba el 18% de las veces! Gemini Pro 1.5 tiene el mejor rendimiento, pero aún solo logra 7 de 10 en distancias cortas.

Todas aciertan el 100% de las veces cuando hay 5 anillos, ¡excelente trabajo IA visual! Pero después, agregar un anillo destroza completamente los resultados. Gemini se pierde, incapaz de acertar una sola vez. Sonnet-3.5 responde 6... un tercio de las veces, y GPT-4o un poco menos de la mitad. Agregar otro anillo lo hace aún más difícil, pero añadir otro más lo hace más fácil para algunos.

El punto de este experimento es simplemente mostrar que, sea lo que sea que estos modelos estén haciendo, realmente no corresponde con lo que entendemos por ver. Después de todo, incluso si vieran mal, no esperaríamos que las imágenes de 6, 7, 8 y 9 anillos variaran tanto en éxito. Las otras tareas evaluadas mostraron patrones similares: no se trataba de que vieran o razonaran bien o mal, sino que parecía haber alguna otra razón por la cual podían contar en un caso pero no en otro.

Una respuesta potencial, por supuesto, está frente a nosotros: ¿por qué deberían ser tan buenos para acertar en una imagen con 5 círculos, pero fracasar miserablemente en el resto, o cuando son 5 pentágonos? (Para ser justos, Sonnet-3.5 se desempeñó bastante bien en eso). Porque todas tienen una imagen con 5 círculos prominentemente presentada en sus datos de entrenamiento: los Anillos Olímpicos. Este logo no solo se repite una y otra vez en los datos de entrenamiento, sino que probablemente se describe en detalle en texto alternativo, pautas de uso y artículos al respecto. Pero, ¿dónde encontrarán en sus datos de entrenamiento 6 anillos entrelazados, o 7? Si sus respuestas son alguna indicación... ¡en ningún lado! No tienen idea de lo que están "viendo" y no tienen una comprensión visual real de qué son los anillos, superposiciones o ninguno de estos conceptos.

Consulté a los investigadores sobre esta "ceguera" que acusan a los modelos de tener. Como otros términos que usamos, tiene una calidad antropomórfica que no es del todo precisa pero difícil de evitar. "Estoy de acuerdo, 'ciego' tiene muchas definiciones, incluso para los humanos y aún no hay una palabra para este tipo de ceguera/insensibilidad de las IAs hacia las imágenes que estamos mostrando", escribió Nguyen. "Actualmente, no hay tecnología para visualizar exactamente lo que un modelo está viendo. Y su comportamiento es una función compleja del texto de entrada, la imagen de entrada y muchos miles de millones de pesos." Especuló que los modelos no son exactamente ciegos, pero que la información visual que extraen de una imagen es aproximada y abstracta, algo así como "hay un círculo en el lado izquierdo". Pero los modelos no tienen medios para hacer juicios visuales, haciendo que sus respuestas sean como las de alguien informado sobre una imagen pero que en realidad no puede verla.

Como último ejemplo, Nguyen envió esto, que respalda la hipótesis anterior. Cuando un círculo azul y un círculo verde se superponen (como indica la pregunta que el modelo debe tomar como hecho), a menudo hay una zona teñida de cian, como en un diagrama de Venn. Si alguien te hiciera esta pregunta, tú o cualquier persona inteligente podrían dar la misma respuesta, ¡porque es totalmente plausible... si tus ojos estuvieran cerrados! Pero nadie con los ojos abiertos respondería de esa manera.

¿Significa todo esto que estos modelos de IA "visuales" son inútiles? Lejos de eso. No poder realizar razonamientos elementales sobre ciertas imágenes habla de sus capacidades fundamentales, pero no de las específicas. Cada uno de estos modelos probablemente será muy preciso en cosas como acciones y expresiones humanas, fotos de objetos y situaciones cotidianas y similares. Y de hecho, eso es lo que se espera que interpreten. Si nos basáramos en la comercialización de las empresas de IA para decirnos todo lo que estos modelos pueden hacer, pensaríamos que tienen una visión perfecta. Investigaciones como esta son necesarias para mostrar que, sin importar cuán precisos puedan ser los modelos para decir si una persona está sentada, caminando o corriendo, lo hacen sin "ver" en el sentido (si se quiere) que solemos entender.