
La industria de la IA se enfrenta a un gran problema: cómo gestionar grandes ventanas de contexto sin olvidar elementos y no aumentar la costo computacional?
Tres investigadores de Google encontraron la respuesta «copiando» el mecanismo de gestión de memoria a largo plazo de los nuestros cerebro, y me creé Titanes. Se trata de una familia de arquitecturas de modelos de IA que potencialmente pueden reemplazar al Transformer actual.
¿Cuál es el problema con las arquitecturas actuales?
Modelos actuales de AI LLM basados en arquitecturas de tipos Transformadores (tanto Gemini como ChatGPT) tienen un problema: con secuencias de tokens muy largas tienden a olvidar los datos, lo que lleva a generar alucinaciones o en todo caso errores y deficiencias.
Esto se debe a que este tipo de arquitectura emplea el mecanismo de autoatención que utiliza complejidad lineal para calcular las relaciones entre tokens. La ventaja de esta solución es encontrar patrones complejos en secuencias de tokens, pero a un costo: a medida que la secuencia crece, el costo computacional y de memoria aumento en manera cuadrática.
En cierto punto llegas a un límite, y, simplificando, podemos decir que el modelo empieza a perder de vista demasiados datos, y por tanto produce alucinaciones. Es decir, genera resultados que no se basan en los datos proporcionados.
Recientemente se ha pensado en desarrollar arquitecturas alternativas capaces de escalar sin aumentar tanto los costes informáticos, pero Ali Behrouz, Peilin Zhong Y Vahab Mirrokni En Google han pensado en una solución diferente.
Según ellos, yo modelos lineales comprimen datos contextuales y tienden a PERDER detalles importantes. La respuesta es una arquitectura con diferentes componentes de memoria que pueden ser coordinado utilizar el conocimiento existente, memorizar hechos nuevos y aprender abstracciones de su contexto.
Aquí están los titanes que copian el mecanismo de memoria a largo plazo del cerebro.
¿Qué son los titanes?
Por eso nacieron Titán, uno nuevo familia de arquitectura para modelos de IA que exploten el funcionamiento del cerebro humano, con «módulos distintos e interconectados», en los que «cada uno es responsable de un componente del proceso de aprendizaje».
En el artículo publicado en arXiv, los investigadores muestran cómo Titán combinan el memoria a breve, a largo término y de Trabajar para gestionar grandes ventanas de contexto.
Cómo funcionan los titanes: memoria a largo plazo
En esta arquitectura se ha implementado un módulo memoria neuronal a largo plazo ¿Quién puede aprender nueva información en el acto? de inferencia sin las ineficiencias del mecanismo de atención.
Esto se debe a que en lugar de memorizar información mientras aprende, el módulo de memoria neural aprende una función que puede almacenar nuevos hechos durante la inferencia y adaptar dinámicamente el proceso de almacenamiento en función de los datos que encuentra.
Para entender cómo funciona este sistema debemos entender cómo funciona. nuestra memoria Largo plazo: el proceso de codificación está influenciado por las características del estímulo y de nosotros factores emocionales o cognitivo. En la práctica, recordamos mejor a largo plazo acontecimientos que son significativos o que nos afectan (o que estamos motivados a recordar).
El concepto de sorpresa
Con los Titanes, los investigadores de Google han desarrollado un sistema similar para resolver el problema de generalización que sufren otras arquitecturas de redes neuronales.
En la práctica, el módulo de memoria elige qué información vale la pena almacenar utilizando el concepto de «sorpresa»: cuanto más difiere una secuencia de tokens del tipo de información almacenada en los pesos del modelo y en la memoria existente, más sorprendente y entonces vale la pena memorizar.
Esto permite que el módulo haga un uso eficiente de su limitada memoria y de almacenar solo piezas de datos que agregan información útil a lo que el modelo ya sabe.
Pero ojo: hay acontecimientos que llaman la atención pero que si no tienen especial relevancia quedan olvidados. Para manejar secuencias de datos muy largas, el módulo de memoria neuronal tiene un mecanismo olvido adaptativo lo que le permite eliminar la información que ya no son necesarios.
La lección de los Transformers
Sin embargo, la lección del Transformadores. De hecho, el módulo de memoria podría complementar el mecanismo de atención de los modelos Transformer, que los investigadores describen como «módulos de memoria a corto plazo». Estos módulos tratan sobre la tamaño de ventana del contexto actual.
Cómo funcionan los Titanes: las tres variantes
Cómo están estructurados los Titanes
entonces yo Titán son una familia de arquitecturas que incorpora los nuevos módulos de memoria neuronal con bloques Transformadores. El modelo se compone de tres módulos:
De esta manera los módulos de Atención Y memoria Están agradecidos de complementarse.
Por un lado, los módulos de atención utilizan el contexto histórico y actual para determinar qué partes del ventana contextual almacenar en la memoria a largo plazo. Por otro lado, la memoria a largo plazo es capaz de proporcionar conocimientos históricos que no son accesibles al contexto de atención actual.
Las tres variantes
Hay tres variaciones de este tipo de arquitectura. La memoria como contexto (MAC), en el que la memoria se trata como un contexto para la información actual.
En esta versión, el modelo recupera información histórica de la memoria a largo plazo y la combina con el contexto actual utilizando atención. La sorpresa se utiliza para la memoria a largo plazo y la decadencia adaptativa se utiliza para liberar espacio.


En La memoria como puerta El módulo de memoria (MAG) se utiliza en paralelo con un mecanismo de atención. Esta solución explota un mecanismo no lineal, en el que una puerta es capaz de limitar la influencia de un tipo de memoria en función de la relevancia del contexto (por ejemplo, si los datos de la memoria a corto plazo, como una secuencia reciente, contrastan con memoria a largo plazo).
Aquí la memoria actúa directamente para liberar espacio para el modelo.


…








