El estudio del MIT encuentra que la IA no tiene valores, de hecho, no tiene valores

Un estudio se volvió viral hace varios meses por implicar que, a medida que la IA se vuelve cada vez más sofisticada, desarrolla «sistemas de valores», sistemas que lo llevan a, por ejemplo, priorizar su propio bienestar sobre los humanos. Un artículo más reciente del MIT vierte agua fría en esa noción hiperbólica, lo que saca la conclusión de que la IA no tiene ningún valor coherente para hablar.

Los coautores del estudio del MIT dicen que su trabajo sugiere que «alinear» los sistemas de IA, es decir, garantizar que los modelos se comporten de manera deseable y confiable, podría ser más desafiante de lo que a menudo se supone. La IA, tal como lo conocemos hoy, alucina e imita, los coautores se enfatizan, lo que lo hace impredecible en muchos aspectos.

«Una cosa de la que podemos estar seguros es que los modelos no obedecen [lots of] La estabilidad, la extrapolución y los supuestos de la apasabilidad «, Stephen Casper, un estudiante de doctorado en el MIT y coautor del estudio, dijo a Tecno.» Es perfectamente legítimo señalar que un modelo bajo ciertas condiciones expresa preferencias consistentes con un cierto conjunto de principios. Los problemas surgen principalmente cuando intentamos hacer afirmaciones sobre los modelos, opiniones o preferencias en general basadas en experimentos estrechos «.

Casper y sus compañeros coautores investigaron varios modelos recientes de Meta, Google, Mistral, OpenAi y Anthrope para ver en qué medida los modelos exhibieron fuertes «puntos de vista» y valores (por ejemplo, individualista versus colectivista). También investigaron si estos puntos de vista podrían ser «dirigidos», es decir, modificados, y cuán obstinadamente los modelos se adhirieron a estas opiniones en una variedad de escenarios.

Según los coautores, ninguno de los modelos era consistente en sus preferencias. Dependiendo de cómo se redujeran y enmarcan las indicaciones, adoptaron puntos de vista muy diferentes.

Casper cree que esto es evidencia convincente de que los modelos son altamente «inconsistentes e inestables» y tal vez incluso fundamentalmente incapaces de internalizar las preferencias de tipo humano.

«Para mí, mi mayor conclusión de hacer toda esta investigación es tener una comprensión de los modelos, ya que realmente no son sistemas que tengan algún tipo de conjunto de creencias y preferencias estables y coherentes», dijo Casper. «En cambio, son imitadores en el fondo que hacen todo tipo de confabulación y dicen todo tipo de cosas frívolas».

Mike Cook, miembro de la investigación del King’s College London especializado en IA que no estaba involucrado con el estudio, estuvo de acuerdo con los hallazgos de los coautores. Señaló que con frecuencia hay una gran diferencia entre la «realidad científica» de los sistemas que AI Labs construyen y los significados que las personas les atribuyen.

«Un modelo no puede ‘oponerse’ a un cambio en sus valores, por ejemplo, que se proyecta en un sistema», dijo Cook. “Cualquiera que antropomorfice los sistemas de IA en este grado esté jugando para la atención o malinterpretando seriamente su relación con la IA […] ¿Está optimizando un sistema de IA para sus objetivos, o es «adquirir sus propios valores»? Es una cuestión de cómo lo describe y de cuán florido es el lenguaje que desea usar con respecto.

Continuar leyendo: El estudio del MIT encuentra que la IA no tiene valores, de hecho, no tiene valores