Cuando se trata de chatbots de inteligencia artificial, más grande suele ser mejor.
Los modelos de idiomas grandes como ChatGPT y Bard, que generan texto original conversacional, mejoran a medida que reciben más datos. Todos los días, los blogueros recurren a Internet para explicar cómo los últimos avances (una aplicación que resume artículos, podcasts generados por IA, un modelo perfeccionado que puede responder cualquier pregunta relacionada con el baloncesto profesional) “cambiarán todo”.
Pero hacer una IA más grande y más capaz requiere un poder de procesamiento que pocas empresas poseen, y existe una creciente preocupación de que un pequeño grupo, incluidos Google, Meta, OpenAI y Microsoft, ejerza un control casi total sobre la tecnología.
Además, los modelos de lenguaje más grandes son más difíciles de entender. A menudo se describen como «cajas negras», incluso por las personas que las diseñan, y figuras destacadas en el campo han expresado su «inquietud» de que los objetivos de la IA en última instancia no se alineen con los nuestros. Si más grande es mejor, también es más opaco y más exclusivo.
En enero, un grupo de jóvenes académicos que trabajan en el procesamiento del lenguaje natural, la rama de la IA centrada en la comprensión lingüística, lanzó un desafío para tratar de cambiar este paradigma. El grupo pidió equipos para crear modelos de lenguaje funcional utilizando conjuntos de datos que tengan menos de una diezmilésima parte del tamaño de los utilizados por los modelos de lenguaje grande más avanzados. Un minimodelo exitoso sería casi tan capaz como los modelos de gama alta, pero mucho más pequeño, más accesible y más compatible con los humanos. El proyecto se llama BabyLM Challenge.
“Estamos desafiando a las personas a pensar en pequeño y enfocarse más en construir sistemas eficientes que más personas puedan usar”, dijo Aaron Mueller, científico informático de la Universidad Johns Hopkins y organizador de BabyLM.
Alex Warstadt, científico informático de ETH Zurich y otro organizador del proyecto, agregó: “El desafío plantea preguntas sobre el aprendizaje del lenguaje humano, en lugar de ‘¿Qué tan grandes podemos hacer nuestros modelos?’ en el centro de la conversación”.
Los grandes modelos de lenguaje son redes neuronales diseñadas para predecir la siguiente palabra en una oración o frase determinada. Están capacitados para esta tarea utilizando un corpus de palabras recopiladas de transcripciones, sitios web, novelas y periódicos. Un modelo típico hace conjeturas basadas en frases de ejemplo y luego se ajusta dependiendo de qué tan cerca esté de la respuesta correcta.
Al repetir este proceso una y otra vez, un modelo forma mapas de cómo las palabras se relacionan entre sí. En general, cuantas más palabras se entrene a un modelo, mejor será; cada frase proporciona contexto al modelo, y más contexto se traduce en una impresión más detallada de lo que significa cada palabra. GPT-3 de OpenAI, lanzado en 2020, fue entrenado en 200 mil millones de palabras; Chinchilla de DeepMind, lanzada en 2022, fue entrenada en un billón.
Para Ethan Wilcox, lingüista de ETH Zurich, el hecho de que algo no humano pueda generar lenguaje presenta una oportunidad emocionante: ¿Se podrían usar modelos de lenguaje de IA para estudiar cómo los humanos aprenden el lenguaje?
Por ejemplo, el nativismo, una teoría influyente que se remonta a los primeros trabajos de Noam Chomsky, afirma que los humanos aprenden el idioma de manera rápida y eficiente porque tienen una comprensión innata de cómo funciona el lenguaje. Pero los modelos de lenguaje también aprenden el lenguaje rápidamente, y aparentemente sin una comprensión innata de cómo funciona el lenguaje, por lo que tal vez el nativismo no retenga el agua.
El desafío es que los modelos de lenguaje aprenden de manera muy diferente a los humanos. Los humanos tienen cuerpos, vidas sociales y ricas sensaciones. Podemos oler el mantillo, sentir las paletas de las plumas, chocar con las puertas y saborear las mentas. Al principio, estamos expuestos a palabras habladas sencillas y sintaxis que a menudo no se representan por escrito. Entonces, concluyó el Dr. Wilcox, una computadora que produce lenguaje después de haber sido entrenada con miles de millones de palabras escritas no puede decirnos mucho sobre nuestro propio proceso lingüístico.
Pero si un modelo de lenguaje estuviera expuesto solo a las palabras que encuentra un ser humano joven, podría interactuar con el lenguaje de maneras que podrían abordar ciertas preguntas que tenemos sobre nuestras propias habilidades.
Entonces, junto con media docena de colegas, el Dr. Wilcox, el Sr. Mueller y el Dr. Warstadt concibieron el Desafío BabyLM, para tratar de acercar un poco más los modelos de lenguaje a la comprensión humana. En enero, enviaron un llamado a los equipos para entrenar modelos de lenguaje en la misma cantidad de palabras que un humano de 13 años encuentra, aproximadamente 100 millones. Los modelos candidatos serían probados sobre qué tan bien generaron y captaron los matices del lenguaje, y se declararía un ganador.
Eva Portelance, lingüista de la Universidad McGill, se encontró con el desafío el día que se anunció. Su investigación se extiende a ambos lados de la línea a menudo borrosa entre la informática y la lingüística. Las primeras incursiones en la IA, en la década de 1950, fueron impulsadas por el deseo de modelar las capacidades cognitivas humanas en computadoras; la unidad básica de procesamiento de información en la IA es la «neurona», y los primeros modelos de lenguaje de las décadas de 1980 y 1990 se inspiraron directamente en el cerebro humano.
Pero a medida que los procesadores se volvieron más poderosos y las empresas comenzaron a trabajar en productos comercializables, los científicos informáticos se dieron cuenta de que a menudo era más fácil entrenar modelos de lenguaje en enormes cantidades de datos que forzarlos a estructuras psicológicamente informadas. Como resultado, dijo el Dr. Portelance, “nos dan un texto que es similar al humano, pero no hay conexión entre nosotros y cómo funcionan”.
Para los científicos interesados en comprender cómo funciona la mente humana, estos grandes modelos ofrecen una visión limitada. Y debido a que requieren un tremendo poder de procesamiento, pocos investigadores pueden acceder a ellos. “Solo una pequeña cantidad de laboratorios de la industria con enormes recursos pueden darse el lujo de entrenar modelos con miles de millones de parámetros en billones de palabras”, Dr. dijo Wilcox.
“O incluso para cargarlos”, agregó Mueller. “Esto ha hecho que la investigación en el campo se sienta un poco menos democrática últimamente”.
El Desafío BabyLM, dijo el Dr. Portelance, podría verse como un paso para alejarse de la carrera armamentista por modelos de lenguaje más grandes y un paso hacia una IA más accesible e intuitiva.
Los grandes laboratorios de la industria no han ignorado el potencial de un programa de investigación de este tipo. Sam Altman, director ejecutivo de OpenAI, dijo recientemente que aumentar el tamaño de los modelos de lenguaje no conduciría al mismo tipo de mejoras observadas en los últimos años. Y empresas como Google y Meta también han estado invirtiendo en la investigación de modelos de lenguaje más eficientes, informados por las estructuras cognitivas humanas. Después de todo, un modelo que puede generar lenguaje cuando se entrena con menos datos también podría ampliarse.
Cualesquiera que sean las ganancias que pueda tener un BabyLM exitoso, para quienes están detrás del desafío, los objetivos son más académicos y abstractos. Incluso el premio subvierte lo práctico. “Solo orgullo”, dijo el Dr. Wilcox.
Read More: ¿Serían mejores los modelos de lenguaje grande si no fueran tan grandes?