ChatGPT puede ser una maravilla moderna de la ingeniería informática y un excelente practicante del idioma inglés, pero no espere que sea realmente correcto.
Desde la historia hasta las finanzas gubernamentales y la cultura pop, la herramienta de lenguaje de inteligencia artificial parece equivocarse cuando se trata de hechos.
Pregúntele a ChatGPT 3.5, la versión pública gratuita actual, cuál fue el video de YouTube más popular de 2010, y dice que fue «Bed Intruder Song», una de las primeras remezclas musicales de las redes sociales de un extraño clip de noticias, que dijo que tuvo 62 millones de visitas. ese año. De hecho, la canción de Justin Bieber, «Baby», se fue con más de 400 millones de visitas.
Pregunte acerca de la popularidad relativa de los nombres de bebés, y se tropieza, obtiene las clasificaciones incorrectas y, a veces, dice que un nombre en particular ni siquiera llegó al top 1,000, cuando en realidad estaba cientos de lugares más arriba.
Pregunte sobre la longitud del muro a lo largo de la frontera entre EE. UU. y México y ChatGPT le dará una respuesta que tiene una década y no incluye el kilometraje agregado por el presidente Donald Trump.
ChatGPT es un modelo de lenguaje de inteligencia artificial, lo que significa que se entrenó para interactuar con los usuarios mediante el consumo de una gran cantidad de datos y luego intenta brindar respuestas basadas en ese conjunto de datos.
Pero a veces parece tan preciso como el sabelotodo sentado al final de la barra de buceo, soltando respuestas con confianza con solo un gesto pasajero a la verdad.
En un intercambio frustrante, ChatGPT se disculpó seis veces mientras intentaba responder una pregunta sobre la ubicación del duelo de 1826 entre el entonces secretario de Estado Henry Clay y el senador William Randolph, que tuvo lugar en el lado sur del río Potomac, cerca de la Puente de las Cadenas.
Al principio, la IA dijo que el duelo fue en Kentucky, luego en Richmond, Virginia, luego en Ashland, cerca de Richmond. Luego cambió al norte, diciendo que estaba en Maryland, justo al otro lado de la línea del Distrito de Columbia. Cuando se le dijo que el duelo en realidad estaba al sur del Potomac, ChatGPT dio una sucesión de tres respuestas incorrectas más, sin llegar nunca a la correcta.
Nathaniel Lovin, investigador asociado sénior del Technology Policy Institute, dijo que las trivias no son realmente lo que hacen los modelos de inteligencia artificial del lenguaje.
“Creo que estas herramientas se usan mejor como algo que dices, ‘Aquí hay cinco párrafos sobre algo, extrae estos datos’ o ‘reescribe este párrafo para que sea más limpio’”, dijo. “No tiene un modelo real del mundo, por lo que no recuerda todos los detalles de todo. Está prediciendo el próximo de sus tokens que cree que debería ser lo próximo que se diga”.
En otras palabras, ChatGPT no regresa a sus bancos de memoria para intentar encontrar la respuesta correcta. Está mirando lo que el usuario escribió y luego tratando de adivinar qué debería venir a continuación.
“Tiene conocimiento de las cosas porque ha leído todo Internet, básicamente, pero no tiene una fuente a la que se refiera”, dijo Lovin.
OpenAI, los creadores de ChatGPT, no respondieron a una solicitud de comentarios para este informe.
Pregúntele a ChatGPT y se disculpa repetidamente después de haber sido llamado por lo que etiquetó como «errores», «errores» o «cualquier confusión».
“Como modelo de lenguaje de IA, me esfuerzo por brindar información precisa y confiable, pero puedo cometer errores. Le agradezco que me haya llamado la atención sobre esto y me haya dado la oportunidad de corregir mis errores”, dijo después de que se le informara sobre un error.
La promesa de la inteligencia artificial es amplia, pero también lo son los posibles errores, como descubrió un desafortunado abogado.
Steven A. Schwartz usó la herramienta para “complementar” su investigación legal en un caso en un tribunal federal en el sur de Florida. ChatGPT terminó fabricando seis casos falsos que el Sr. Schwartz luego citó en su escrito como precedente.
Schwartz dijo en una presentación legal que ahora se da cuenta de que ChatGPT “se ha revelado como poco confiable”. Dijo que nunca antes lo había usado para investigación legal “y por lo tanto desconocía la posibilidad de que su contenido pudiera ser falso”.
El juez amenaza con sanciones contra el Sr. Schwartz y su bufete de abogados por presentar los casos falsos. Se ha fijado una audiencia para el 8 de junio sobre el asunto.
The Times, en su propia investigación, descubrió que ChatGPT es bastante dudoso en cuestiones legales.
En un momento, ChatGPT dice que es ilegal gritar «fuego» en un teatro lleno de gente. Pero eso en realidad no se considera buena ley, desde el histórico caso de la Corte Suprema de 1969 Brandenburg v. Ohio.
O tome la «prueba de Lemon», una fórmula para medir el enredo de la iglesia y el estado que la Corte Suprema presentó en un caso de 1971, Lemon v. Kurtzman. ChatGPT dice que Lemon «todavía se usa ampliamente en la actualidad» e incluso cita un caso de 2019 ante los jueces, American Legion v. American Humanist Association, donde dice que los jueces «citan explícitamente la prueba de Lemon como un estándar».
De hecho, la mayoría en ese caso dijo específicamente que la prueba de Lemon no se aplicaba.
Pregúntele a ChatGPT cuál era el déficit federal en 1980 y le responderá con una declaración firme de que fue de $74,97 mil millones, diciendo que obtuvo sus datos del Departamento del Tesoro. Pero esa cifra está desviada por más de mil millones de dólares de la respuesta real: $73.8 mil millones.
Es difícil averiguar de dónde sacó ChatGPT su cifra claramente errónea. No parece aparecer en ningún informe de noticias, por ejemplo.
ChatGPT obtiene el número de muertos estadounidenses en la guerra de Vietnam correcto, pero confunde la cuestión de cuál sería el número de muertos estadounidenses proyectado si los EE. UU. hubieran invadido Japón para intentar poner fin a la Segunda Guerra Mundial.
Dice que la estimación de las muertes estadounidenses fue de 46.000 y las bajas japonesas podrían alcanzar entre 1,7 millones y 4 millones. De hecho, esa cifra de 1,7 millones a 4 millones fue la estimación del Departamento de Guerra de las bajas estadounidenses, incluidos hasta 800.000 muertos.
ChatGPT 4.0, la versión más actual por la que los usuarios pagan una tarifa mensual, tiene una precisión algo mejor que la 3.5. Clava preguntas sobre el video de YouTube más visto de 2010, el déficit federal de 1980, el «incendio» en una prueba de teatro llena de gente y una consulta sobre las 12 enmiendas originales propuestas a la Constitución por el Congreso en 1789.
Pero todavía estropea la pregunta de la prueba de Lemon, la ubicación del duelo Clay-Randolph y una pregunta sobre el mejor video de MTV de 1996.
Esa evolución “muestra que no estamos cerca del límite de estos sistemas”, dijo Lovin.
Dijo que todavía existe el potencial de que ChatGPT y otras IA de idiomas eventualmente sean motores de búsqueda súper precisos, pero eso aún está muy lejos.
“Tal vez GPT 6 o GPT 7”, dijo.