Las razones por las que la inteligencia artificial no puede escribir 'fresa' correctamente.

¿Cuántas veces aparece la letra "r" en la palabra "fresa"? Según potentes productos de inteligencia artificial como GPT-4o y Claude, la respuesta es dos.

La letra "r" aparece dos veces en la palabra "strawberry", según informaciones de productos avanzados de inteligencia artificial como GPT-4o y Claude. Estas modelos de lenguaje, conocidos como LLM, tienen la capacidad de redactar ensayos y resolver ecuaciones en cuestión de segundos, además de sintetizar grandes cantidades de datos más rápido de lo que un humano puede abrir un libro. Sin embargo, a veces estos sistemas con apariencia de omnisciencia fallan de manera tan notable que el error se convierte en un meme viral, lo que nos recuerda que quizás aún tenemos tiempo antes de rendirnos ante nuestros nuevos señores de la inteligencia artificial.

Los LLM no comprenden conceptos como letras y sílabas, lo que refleja una verdad más amplia que a menudo olvidamos: carecen de cerebro. No poseen la capacidad de pensamiento humano ni son especialmente similares a nosotros. La mayoría de estos modelos están basados en arquitecturas de transformers, un tipo de aprendizaje profundo que descompone el texto en tokens, que pueden ser palabras completas, sílabas o letras, según el modelo específico. Como explica Matthew Guzdial, investigador en inteligencia artificial y profesor asistente en la Universidad de Alberta, los LLM utilizan una arquitectura de transformadores que no lee el texto en el sentido humano. Cuando se ingresa un texto, este se traduce a una codificación; por ejemplo, la palabra "the" se interpreta como un único código, sin comprender realmente las letras "T", "H" y "E".

Debido a que los transformadores no pueden procesar ni emitir texto de manera eficiente, el texto se convierte en representaciones numéricas que luego se contextualizan para que la IA genere una respuesta lógica. Así, aunque el sistema pueda entender que "straw" y "berry" forman "strawberry", no capta que esta palabra está compuesta por las letras "s", "t", "r", "a", "w", "b", "e", "r", "r" y "y" en ese orden específico. Este obstáculo no es sencillo de resolver, ya que está intrínsecamente ligado a la arquitectura que permite el funcionamiento de los LLM.

Investigaciones sobre este fenómeno revelan que comprende un dilema sobre la definición misma de "palabra" para un modelo de lenguaje. Incluso si se lograra un consenso entre expertos humanos para establecer un vocabulario de tokens ideal, los modelos probablemente aún encontrarían útil agrupar palabras de distintas maneras. La complejidad se incrementa cuando un LLM aprende múltiples idiomas, puesto que algunos métodos de tokenización asumen que un espacio en una oración siempre precede un nuevo término, algo que no ocurre en idiomas como el chino, japonés o tailandés.

Los generadores de imágenes como Midjourney y DALL-E utilizan modelos de difusión diferentes a la arquitectura transformer de generadores de texto como ChatGPT. Estos modelos de imagen reconstruyen una imagen a partir de ruido, entrenándose en grandes bases de datos de imágenes. Su rendimiento suele ser mejor en objetos reconocibles como coches y rostros, pero presenta dificultades con representaciones más pequeñas, como dedos o caligrafía, dado que estos detalles suelen aparecer con menos frecuencia en los conjuntos de entrenamiento.

Recientemente, OpenAI ha comenzado a trabajar en un nuevo producto de inteligencia artificial apodado "Strawberry", que promete mejorar en razonamiento. A pesar de que la precisión de los LLM ha estado limitada por la escasez de datos de entrenamiento, se dice que "Strawberry" tiene la capacidad de generar datos sintéticos precisos para optimizar los LLM de OpenAI. Este nuevo modelo ha demostrado resolver puzzles de palabras creativos y ecuaciones matemáticas desconocidas. Mientras tanto, Google DeepMind ha lanzado AlphaProof y AlphaGeometry 2, diseñados para el razonamiento matemático formal, mostrando una notable capacidad para resolver problemas complejos.

De este modo, circula un aire irónico en torno a los memes referidos a la ortografía de "strawberry", justo cuando OpenAI avanza con su desarrollo "Strawberry". El CEO de OpenAI, Sam Altman, no dudó en mostrar su orgullo al compartir su cosecha de bayas en su jardín.

inteligencia artificial
modelos de lenguaje
aprendizaje profundo

Relacionado

Meta lanza el modelo de inteligencia artificial de código abierto Llama 3.1 para competir con OpenAI.

| julio 23, 2024

Relacionado

Meta lanza el modelo de inteligencia artificial de código abierto Llama 3.1 para competir con OpenAI.

| julio 23, 2024