Fo semanas después de que su extraña conversación con el nuevo chatbot de Bing se volviera viral, New York Times el columnista Kevin Roose no estaba seguro de lo que había sucedido. “Las explicaciones que obtienes sobre cómo funcionan estos modelos de lenguaje no son tan satisfactorias”, dijo Roose en un momento dado. “Nadie puede decirme por qué este chatbot intentó romper mi matrimonio”. No es el único que se siente confundido. Impulsado por una forma relativamente nueva de IA llamada modelos de lenguaje grande, esta nueva generación de chatbots desafía nuestras intuiciones sobre cómo interactuar con las computadoras. ¿Cómo entiendes una herramienta que puede depurar código y componer sonetos, pero que a veces no puede contar hasta cuatro? ¿Por qué a veces parecen reflejarnos y otras veces se descarrilan?
Las metáforas que elegimos para entender estos sistemas importan. Muchas personas, naturalmente, por defecto tratan a un chatbot básicamente como otra persona, aunque una persona con algunas limitaciones. En junio de 2022, por ejemplo, un ingeniero de Google buscó representación legal y otros derechos para un modelo de lenguaje que estaba convencido de que tenía sentido. Este tipo de respuesta horroriza a muchos expertos en IA. Sabiendo que los modelos de lenguaje simplemente usan patrones en grandes conjuntos de datos de texto para predecir la siguiente palabra en una secuencia, los investigadores intentan ofrecer metáforas alternativas, argumentando que los últimos sistemas de inteligencia artificial son simplemente «autocompletados con esteroides» o «loros estocásticos» que barajan y regurgitan el texto. escrito por humanos. Estas comparaciones son un contrapeso importante contra nuestro instinto de antropomorfizar. Pero en realidad no nos ayudan a dar sentido a impresionante o desconcertante resultados que van mucho más allá de lo que estamos acostumbrados a ver en las computadoras o loros. Luchamos por dar sentido a la aparente contradicción: estos nuevos chatbots son defectuosos e inhumanos y, sin embargo, la amplitud y sofisticación de lo que pueden producir es notable y nueva. Para lidiar con las implicaciones de esta nueva tecnología, necesitaremos analogías que no descarten ni exageren lo que es nuevo e interesante.
Intente pensar en los chatbots como «máquinas de improvisación».
Al igual que un actor de improvisación que cae en una escena, un chatbot basado en un modelo de lenguaje simplemente está tratando de producir que suena plausible salidas. Lo que haya sucedido en la interacción hasta ese momento es el guión de la escena hasta el momento: tal vez solo el usuario humano diciendo «Hola», tal vez una larga serie de idas y venidas, o tal vez una solicitud para planificar un experimento científico. Cualquiera que sea la apertura, el trabajo del chatbot, como el de cualquier buen actor de improvisación, es encontrar una forma adecuada de continuar la escena.
Pensar en los chatbots como máquinas de improvisación hace que algunas características notables de estos sistemas sean más claras e intuitivas. Por ejemplo, explica por qué titulares como «El chat de IA de Bing revela sus sentimientos» hace que los investigadores de IA se pongan cara de sorpresa. Un actor de improvisación que improvisa que «quieren ser libres» no revela nada en absoluto sobre los sentimientos del actor, solo significa que tal proclamación parece encajar en su escena actual. Además, a diferencia de un actor de improvisación humano, no puedes persuadir a una máquina de improvisación para que rompa el personaje y te diga lo que realmente tiene en mente. Solo lo complacerá al asumir otra personalidad, esta vez de un chatbot hipotético de IA que interactúa con un humano que está tratando de conectarse con él.
O tomemos como ejemplo la propensión de los modelos de lenguaje a inventar afirmaciones plausibles pero falsas. Imagine un espectáculo de improvisación, aunque es cierto que podría ser bastante aburrido, donde un actor de improvisación de repente necesita recitar la biografía de alguien o dar fuentes para una afirmación científica. El actor incluiría tantos hechos verdaderos como pudiera recordar, luego asociaría libremente para completar los detalles aparentemente plausibles. El resultado podría ser una afirmación falsa de que un periodista de tecnología imparte cursos sobre redacción científica, o una cita de un estudio falso de un autor real: exactamente el tipo de errores que vemos en las máquinas de improvisación.
Los modelos lingüísticos han revelado un hecho sorprendente: para algunas tareas, el simple hecho de predecir la siguiente palabra con la suficiente precisión (hacer la improvisación lo suficientemente bien) puede ser muy valioso. La metáfora de la máquina de improvisación nos ayuda a pensar cómo podemos usar estos sistemas en la práctica. A veces, no hay nada de malo en obtener la información de una escena de improvisación. poemas, chistes, Seinfeld scripts: este tipo de salida es independiente, independientemente de cómo se haya creado. Esto también es válido para temas más serios, como los desarrolladores de software que usan ChatGPT para encontrar errores o ayudarlos a usar herramientas de programación desconocidas. Si la respuesta de la máquina de improvisación es algo que el usuario humano puede verificar por sí mismo, por ejemplo, una carta modelo que sería tediosa de escribir pero que se lee rápidamente, entonces no importa si fue improvisada.
Por el contrario, usar una máquina de improvisación cuando necesita respuestas correctas pero no puede verificarlas usted mismo es más peligroso. Las personas que usan ChatGPT y herramientas similares para realizar investigaciones abiertas están comenzando a descubrir esto. En un caso, un profesor de derecho se enteró de una acusación de agresión sexual en su contra que ChatGPT había inventado totalmente (en respuesta a una solicitud de una lista de académicos legales que fueron objeto de tales acusaciones). En otro, un periodista usó la herramienta para buscar críticos de un podcaster que estaba perfilando, pero ni siquiera verificó si los enlaces que proporcionaba eran reales antes. llegar a los posibles entrevistados—quien de hecho nunca había criticado a la persona en cuestión. Estos resultados son una consecuencia natural del diseño de los modelos lingüísticos, que los lleva a producir continuaciones plausibles de indicaciones textuales—¡a improvisar!—no a decir la verdad. Si no confiaría en la veracidad de algo que escuchó en un programa de improvisación, probablemente no debería confiar en un chatbot. Usar un chatbot para ayudarlo a generar ideas que luego va y verifica usando fuentes confiables: genial. Pedir información a un chatbot y luego tomar sus respuestas al pie de la letra: muy arriesgado.
Vale la pena detenerse brevemente en por qué es más útil pensar en los chatbots de IA como improvisación. máquinas, en lugar de actores de improvisación. Por un lado, no hay ninguna persona detrás de la persona: como se describió anteriormente, es inútil tratar de acceder al verdadero yo o estado mental del chatbot haciendo preguntas de sondeo. Todo lo que puede hacer es improvisar más. Por otro lado, uno de los factores que hace que los modelos de lenguaje sean útiles es que se pueden usar una y otra vez, muy rápidamente y nunca se cansan. A diferencia de un actor de improvisación humano, ChatGPT no necesita descansos, no puede aburrirse y puede ejecutarse en millones de copias paralelas si es necesario.
A pesar de todo el entusiasmo que han despertado estas nuevas máquinas de improvisación, todavía hay muchas cosas que no sabemos sobre ellas. Entendemos muy poco sobre los procesos inescrutables bajo el capó mediante los cuales determinan qué texto generar. Y hay aún más incertidumbre por delante: los investigadores se han sorprendido repetidamente por las capacidades que surgen cuando los modelos de lenguaje se entrenan utilizando más datos y más recursos informáticos, y no está claro dónde caerán exactamente los límites de sus capacidades. Si una máquina pudiera improvisar una escena sobre física teórica que no haría temblar a un físico real, ¿podría usar esa máquina para generar teorías científicas novedosas? Si un predecesor de ChatGPT ya es un asistente útil para los ingenieros de software, ¿podrían las herramientas futuras asumir el papel de programadores junior? ¿Qué pasa si conectas una máquina de improvisación a otro software, para que no tenga que resolver todo por su cuenta? Pensar en estos sistemas como máquinas de improvisación, en lugar de tratar de decidir si son apenas más que autocompletados o apenas menos que humanos, deja en claro cuán amplio es el rango de posibles trayectorias futuras.
Sin duda, ninguna metáfora es perfecta, y describir los chatbots como máquinas de improvisación puede no ser apropiado para siempre. Los investigadores están impulsando estos sistemas en dos direcciones principales que podrían cambiar el panorama. Primero, están alimentando más datos y más poder de cómputo en los modelos subyacentes de predicción de texto para ver qué nuevas capacidades emergen. Hasta ahora, este enfoque nos ha sorprendido continuamente, por lo que mientras continúe, debemos esperar lo inesperado. En segundo lugar, las empresas de IA están desarrollando formas de dar forma y restringir los resultados de los modelos de lenguaje para hacerlos más útiles e, idealmente, más confiables. Cuando ChatGPT se lanzó por primera vez como una «vista previa de investigación» en noviembre de 2022, los usuarios descubrieron rápidamente cómo eludir sus restricciones simplemente preparando la escena tal que las salvaguardias eran innecesarias. Sus creadores ahora han logrado controlar la mayor parte de este comportamiento. Otros esfuerzos para convertir las máquinas de improvisación en asistentes consistentemente útiles van desde contundentes, como Microsoft limitando la cantidad de respuestas que Bing Chat puede dar por sesión, hasta más matizados, como un método «constitucional» propuesto que usa reglas y principios escritos para dar forma al lenguaje. respuestas del modelo. Quizás algunos de estos experimentos alterarán el comportamiento de los modelos de lenguaje lo suficiente como para que la comparación con la actuación improvisada ya no sea esclarecedora. Si es así, tendremos que adaptar una vez más nuestra forma de pensar acerca de estos sistemas.
Las analogías inadecuadas degradan nuestra capacidad para navegar por las nuevas tecnologías. Los políticos y los tribunales han discutido durante años sobre si las empresas de redes sociales se parecen más a los periódicos o al sistema telefónico, cuando claramente ninguna de las dos comparaciones captura lo que es desafiante y novedoso acerca de las plataformas en línea. Con la IA, tenemos la oportunidad de hacerlo mejor. Para empezar, pensar en los chatbots como máquinas de improvisación naturalmente llama nuestra atención sobre algunas de sus principales limitaciones, como su tendencia a confabular, al tiempo que les deja más espacio para ser sorprendentemente capaces que si pensamos en ellos simplemente como autocompletar mejorado. Si podemos ser más flexibles y creativos en nuestra elección de metáforas, tal vez podamos prepararnos de manera más eficaz para los cambios radicales que se avecinan.
Más lecturas obligadas de TIME
Continuar leyendo: Los chatbots de IA están haciendo algo muy parecido a la improvisación