Qué son los titanes y cómo podrían darle una ventaja a la IA de Google

La industria de la IA se enfrenta a un gran problema: cómo gestionar grandes ventanas de contexto sin olvidar elementos y no aumentar la costo computacional?

Tres investigadores de Google encontraron la respuesta «copiando» el mecanismo de gestión de memoria a largo plazo de los nuestros cerebro, y me creé Titanes. Se trata de una familia de arquitecturas de modelos de IA que potencialmente pueden reemplazar al Transformer actual.

¿Cuál es el problema con las arquitecturas actuales?

Modelos actuales de AI LLM basados en arquitecturas de tipos Transformadores (tanto Gemini como ChatGPT) tienen un problema: con secuencias de tokens muy largas tienden a olvidar los datos, lo que lleva a generar alucinaciones o en todo caso errores y deficiencias.

Esto se debe a que este tipo de arquitectura emplea el mecanismo de autoatención que utiliza complejidad lineal para calcular las relaciones entre tokens. La ventaja de esta solución es encontrar patrones complejos en secuencias de tokens, pero a un costo: a medida que la secuencia crece, el costo computacional y de memoria aumento en manera cuadrática.

En cierto punto llegas a un límite, y, simplificando, podemos decir que el modelo empieza a perder de vista demasiados datos, y por tanto produce alucinaciones. Es decir, genera resultados que no se basan en los datos proporcionados.

Recientemente se ha pensado en desarrollar arquitecturas alternativas capaces de escalar sin aumentar tanto los costes informáticos, pero Ali Behrouz, Peilin Zhong Y Vahab Mirrokni En Google han pensado en una solución diferente.

Según ellos, yo modelos lineales comprimen datos contextuales y tienden a PERDER detalles importantes. La respuesta es una arquitectura con diferentes componentes de memoria que pueden ser coordinado utilizar el conocimiento existente, memorizar hechos nuevos y aprender abstracciones de su contexto.

Aquí están los titanes que copian el mecanismo de memoria a largo plazo del cerebro.

¿Qué son los titanes?

Por eso nacieron Titán, uno nuevo familia de arquitectura para modelos de IA que exploten el funcionamiento del cerebro humano, con «módulos distintos e interconectados», en los que «cada uno es responsable de un componente del proceso de aprendizaje».

En el artículo publicado en arXiv, los investigadores muestran cómo Titán combinan el memoria a breve, a largo término y de Trabajar para gestionar grandes ventanas de contexto.

Cómo funcionan los titanes: memoria a largo plazo

En esta arquitectura se ha implementado un módulo memoria neuronal a largo plazo ¿Quién puede aprender nueva información en el acto? de inferencia sin las ineficiencias del mecanismo de atención.

Esto se debe a que en lugar de memorizar información mientras aprende, el módulo de memoria neural aprende una función que puede almacenar nuevos hechos durante la inferencia y adaptar dinámicamente el proceso de almacenamiento en función de los datos que encuentra.

Para entender cómo funciona este sistema debemos entender cómo funciona. nuestra memoria Largo plazo: el proceso de codificación está influenciado por las características del estímulo y de nosotros factores emocionales o cognitivo. En la práctica, recordamos mejor a largo plazo acontecimientos que son significativos o que nos afectan (o que estamos motivados a recordar).

El concepto de sorpresa

Con los Titanes, los investigadores de Google han desarrollado un sistema similar para resolver el problema de generalización que sufren otras arquitecturas de redes neuronales.

En la práctica, el módulo de memoria elige qué información vale la pena almacenar utilizando el concepto de «sorpresa»: cuanto más difiere una secuencia de tokens del tipo de información almacenada en los pesos del modelo y en la memoria existente, más sorprendente y entonces vale la pena memorizar.

Esto permite que el módulo haga un uso eficiente de su limitada memoria y de almacenar solo piezas de datos que agregan información útil a lo que el modelo ya sabe.

Pero ojo: hay acontecimientos que llaman la atención pero que si no tienen especial relevancia quedan olvidados. Para manejar secuencias de datos muy largas, el módulo de memoria neuronal tiene un mecanismo olvido adaptativo lo que le permite eliminar la información que ya no son necesarios.

La lección de los Transformers

Sin embargo, la lección del Transformadores. De hecho, el módulo de memoria podría complementar el mecanismo de atención de los modelos Transformer, que los investigadores describen como «módulos de memoria a corto plazo». Estos módulos tratan sobre la tamaño de ventana del contexto actual.

Cómo funcionan los Titanes: las tres variantes

Cómo están estructurados los Titanes

entonces yo Titán son una familia de arquitecturas que incorpora los nuevos módulos de memoria neuronal con bloques Transformadores. El modelo se compone de tres módulos:

la forma Centro actúa como una memoria a corto plazo y utiliza el mecanismo de atención de los Transformers para atender al segmento actual de tokens de entrada que el modelo está procesando inmediatamente.

la forma de memoria a largo plazo (Memoria a largo plazo) utiliza una arquitectura de memoria neuronal para almacenar información más allá del contexto actual.

la forma de memoria persistente (Memoria Persistente) es un tipo de memoria estática, ya que los parámetros que se pueden aprender permanecen fijos después del entrenamiento y memorizan el conocimiento independientemente del tiempo (podríamos asimilarlo a fase de retención de la memoria a largo plazo de nuestro cerebro, cuando la memoria está consolidada)

De esta manera los módulos de Atención Y memoria Están agradecidos de complementarse.

Por un lado, los módulos de atención utilizan el contexto histórico y actual para determinar qué partes del ventana contextual almacenar en la memoria a largo plazo. Por otro lado, la memoria a largo plazo es capaz de proporcionar conocimientos históricos que no son accesibles al contexto de atención actual.

Las tres variantes

Hay tres variaciones de este tipo de arquitectura. La memoria como contexto (MAC), en el que la memoria se trata como un contexto para la información actual.

En esta versión, el modelo recupera información histórica de la memoria a largo plazo y la combina con el contexto actual utilizando atención. La sorpresa se utiliza para la memoria a largo plazo y la decadencia adaptativa se utiliza para liberar espacio.

En La memoria como puerta El módulo de memoria (MAG) se utiliza en paralelo con un mecanismo de atención. Esta solución explota un mecanismo no lineal, en el que una puerta es capaz de limitar la influencia de un tipo de memoria en función de la relevancia del contexto (por ejemplo, si los datos de la memoria a corto plazo, como una secuencia reciente, contrastan con memoria a largo plazo).

Aquí la memoria actúa directamente para liberar espacio para el modelo.

…

Qué son los titanes y cómo podrían darle una ventaja a la IA de Google

Pilar Benegas

Related Posts

Niños: El juego online que estimula el pensamiento infantil con preguntas de la vida diaria

Cuál es la IA más precisa y fiable hoy: ChatGPT, Grok, Gemini, entre otras

Alerta en casa: cómo saber si un intruso está conectado a tu WiFi y cómo evitarlo

Elon Musk activa Starlink para celulares en Latinoamérica: quiénes podrán conectarse

¿Cómo volverse millonario según la inteligencia artificial?

Premium Content

a dos años de la «guerra olvidada», la mayor marea humana del planeta huye para salvar su vida

Hor�Scopo del Nió Prodigio: ¿Qué tienes para cada señal de Zod�Co este martes 9 de septiembre?

Trailer de la temporada 3 de ‘Juego Squid’ desatado por Netflix

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password

Qué son los titanes y cómo podrían darle una ventaja a la IA de Google

¿Cuál es el problema con las arquitecturas actuales?

Aquí están los titanes que copian el mecanismo de memoria a largo plazo del cerebro.

¿Qué son los titanes?

Cómo funcionan los titanes: memoria a largo plazo

El concepto de sorpresa

La lección de los Transformers

Cómo funcionan los Titanes: las tres variantes

Cómo están estructurados los Titanes

Las tres variantes

Related Posts

Premium Content

Browse by Tags

Red de Noticias

Es De Latino News

Acerca de EDL

Welcome Back!

Retrieve your password