Cover Image for La falta de tokens influye en el rendimiento de la inteligencia artificial generativa hoy

La falta de tokens influye en el rendimiento de la inteligencia artificial generativa hoy

La tokenización, el proceso mediante el cual muchos modelos de inteligencia artificial generativa entienden los datos, tiene fallas clave.

Los modelos de inteligencia artificial generativa no procesan el texto de la misma manera que lo hacen los humanos. Comprender sus entornos internos basados en "tokens" puede ayudar a explicar algunos de sus comportamientos extraños y limitaciones obstinadas. La mayoría de los modelos, desde los pequeños y locales como Gemma hasta el líder de la industria GPT-40 de OpenAI, se basan en una arquitectura conocida como el transformador. Debido a la forma en que los transformadores asocian el texto con otros tipos de datos, no pueden recibir ni producir texto en bruto, al menos no sin una enorme cantidad de cómputo. Por tanto, por razones tanto pragmáticas como técnicas, los modelos de transformador actuales trabajan con texto que ha sido desglosado en piezas más pequeñas y fáciles de digerir llamadas tokens, en un proceso conocido como tokenización. Los tokens pueden ser palabras, como "fantástico". O pueden ser sílabas, como "fan", "tas" y "tic". Dependiendo del tokenizador, el modelo que realiza la tokenización, incluso pueden ser caracteres individuales en palabras (por ejemplo, "f", "a", "n", "t", "a", "s", "t", "i", "c"). Utilizando este método, los transformadores pueden captar más información (en el sentido semántico) antes de alcanzar un límite conocido como la ventana de contexto. Pero la tokenización también puede introducir sesgos. Algunos tokens tienen espaciados extraños, lo que puede desorientar a un transformador. Por ejemplo, un tokenizador podría codificar "érase una vez" como "érase", "una", "vez", mientras que codifica "érase una " (que tiene un espacio en blanco al final) como "érase", "una", " " . Dependiendo de cómo se incite a un modelo, con "érase una vez" o "érase una vez ", los resultados pueden ser completamente diferentes, porque el modelo no comprende (como lo haría una persona) que el significado es el mismo. Los tokenizadores también tratan de manera diferente las mayúsculas. "Hola" no es necesariamente lo mismo que "HOLA" para un modelo; "hola" suele ser un único token (dependiendo del tokenizador), mientras que "HOLA" puede ser hasta tres ("HE", "La", y "O"). Es por eso que muchos transformadores fallan la prueba de letras mayúsculas. "Es difícil evitar la pregunta de qué exactamente debería ser una 'palabra' para un modelo de lenguaje, e incluso si logramos que los expertos humanos coincidan en un vocabulario de tokens perfecto, los modelos probablemente seguirían encontrando útil 'trocear' las cosas aún más," dijo Sheridan Feucht, una estudiante de doctorado que estudia la interpretabilidad de modelos de lenguaje grandes en la Universidad Northeastern, a TechCrunch. "Mi suposición sería que no hay algo como un tokenizador perfecto debido a este tipo de ambigüedad." Esta "ambigüedad" crea aún más problemas en idiomas distintos al inglés. Muchos métodos de tokenización asumen que un espacio en una oración denota una nueva palabra. Eso se debe a que fueron diseñados pensando en el inglés. Pero no todos los idiomas utilizan espacios para separar palabras. El chino y el japonés no lo hacen, al igual que el coreano, el tailandés o el camboyano. Un estudio de Oxford de 2023 encontró que, debido a las diferencias en la forma en que se tokenizan los idiomas no ingleses, a un transformador le puede llevar el doble de tiempo completar una tarea formulada en un idioma distinto al inglés en comparación con la misma tarea formulada en inglés. El mismo estudio, al igual que otro más, encontraron que los usuarios de idiomas menos "eficientes en tokens" probablemente verán un peor rendimiento del modelo y pagarán más por su uso, dado que muchos proveedores de IA cobran por token. Los tokenizadores a menudo tratan cada carácter en sistemas de escritura logográfica, sistemas en los que los símbolos impresos representan palabras sin relación con la pronunciación, como el chino, como un token distinto, lo que aumenta el conteo total de tokens. De manera similar, los tokenizadores que procesan idiomas aglutinantes, idiomas en los que las palabras están compuestas por pequeños elementos de significado llamados morfemas, como el turco, tienden a convertir cada morfema en un token, lo que incrementa el conteo total de tokens. (La palabra equivalente a "hola" en tailandés, สวัสดี, consta de seis tokens). En 2023, la investigadora de Google DeepMind AI, Yennie Jun, llevó a cabo un análisis comparando la tokenización de diferentes idiomas y sus efectos posteriores. Utilizando un conjunto de datos de textos paralelos traducidos a 52 idiomas, Jun demostró que algunos idiomas necesitaban hasta 10 veces más tokens para capturar el mismo significado que en inglés. Más allá de las inequidades lingüísticas, la tokenización podría explicar por qué los modelos actuales tienen dificultades con las matemáticas. Rara vez se tokenizan consistentemente los dígitos. Debido a que los tokenizadores no saben realmente qué son los números, podrían tratar "380" como un token, pero representar "381" como un par ("38" y "1") — destruyendo efectivamente las relaciones entre los dígitos y los resultados en ecuaciones y fórmulas. El resultado es la confusión del transformador; un estudio reciente mostró que los modelos tienen dificultades para entender patrones numéricos repetitivos y contexto, especialmente en datos temporales. (Véase: GPT-4 piensa que 7,735 es mayor que 7,926). Por eso los modelos tampoco son buenos resolviendo problemas de anagramas o invirtiendo palabras. Veremos que muchos comportamientos extraños y problemas de los LLM se remontan en realidad a la tokenización. Abordaremos varios de estos problemas, discutiremos por qué la tokenización es la culpable y por qué sería ideal que alguien encuentre una forma de eliminar por completo esta etapa. Por tanto, la tokenización claramente presenta desafíos para la IA generativa. ¿Pueden resolverse? Quizás. Feucht menciona modelos de estado espacial a nivel de byte como MambaByte, que pueden procesar mucha más información que los transformadores sin penalizaciones de rendimiento al eliminar por completo la tokenización. MambaByte, que trabaja directamente con bytes crudos que representan texto y otros datos, compite con algunos modelos de transformadores en tareas de análisis del lenguaje mientras maneja mejor el "ruido" como palabras con caracteres intercambiados, espacios y caracteres en mayúsculas. Sin embargo, modelos como MambaByte están en las primeras etapas de investigación. "Probablemente lo mejor sea permitir que los modelos vean los caracteres directamente sin imponer la tokenización, pero actualmente eso es simplemente computacionalmente inviable para los transformadores", dijo Feucht. "Para los modelos de transformador en particular, la computación escala de forma cuadrática con la longitud de la secuencia, por lo que realmente queremos utilizar representaciones de texto cortas." A menos que haya un avance en la tokenización, parecería que las nuevas arquitecturas de modelos serán la clave.