La red neuronal de inteligencia artificial aprende cuándo no se debe confiar

Confianza en la red neuronal

Los investigadores del MIT han desarrollado una forma para que las redes neuronales de aprendizaje profundo estimen rápidamente los niveles de confianza en sus resultados. El avance podría mejorar la seguridad y la eficiencia en la toma de decisiones asistida por IA. Crédito: MIT

Una forma más rápida de estimar la incertidumbre en la toma de decisiones asistida por IA podría conducir a resultados más seguros.

Cada vez más, los sistemas de inteligencia artificial conocidos como redes neuronales de aprendizaje profundo se utilizan para informar decisiones vitales para la salud y la seguridad humanas, como la conducción autónoma o el diagnóstico médico. Estas redes son buenas para reconocer patrones en conjuntos de datos grandes y complejos para ayudar en la toma de decisiones. Pero, ¿cómo sabemos que son correctos? Alexander Amini y sus colegas en MIT y la Universidad de Harvard querían averiguarlo.

Han desarrollado una forma rápida para que una red neuronal procese datos y genere no solo una predicción, sino también el nivel de confianza del modelo en función de la calidad de los datos disponibles. El avance podría salvar vidas, ya que el aprendizaje profundo ya se está implementando en el mundo real hoy. El nivel de certeza de una red puede ser la diferencia entre un vehículo autónomo que determina que «está todo claro para avanzar a través de la intersección» y «probablemente esté claro, así que deténgase por si acaso».

Los métodos actuales de estimación de la incertidumbre para las redes neuronales tienden a ser computacionalmente costosos y relativamente lentos para las decisiones de fracción de segundo. Pero el enfoque de Amini, denominado «regresión probatoria profunda», acelera el proceso y podría conducir a resultados más seguros. «Necesitamos la capacidad no solo de tener modelos de alto rendimiento, sino también de comprender cuándo no podemos confiar en esos modelos», dice Amini, estudiante de doctorado en el grupo de la profesora Daniela Rus en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). .

“Esta idea es importante y aplicable en general. Se puede utilizar para evaluar productos que se basan en modelos aprendidos. Al estimar la incertidumbre de un modelo aprendido, también aprendemos cuánto error esperar del modelo y qué datos faltantes podrían mejorar el modelo ”, dice Rus.

Amini presentará la investigación en la conferencia NeurIPS del próximo mes, junto con Rus, quien es el profesor Andrew y Erna Viterbi de Ingeniería Eléctrica y Ciencias de la Computación, director de CSAIL y vicedecano de investigación del MIT Stephen A. Schwarzman College of Computing; y los estudiantes graduados Wilko Schwarting del MIT y Ava Soleimany del MIT y Harvard.

Incertidumbre eficiente

Después de una historia de altibajos, el aprendizaje profundo ha demostrado un rendimiento notable en una variedad de tareas, en algunos casos incluso superando a los humanos. exactitud. Y hoy en día, el aprendizaje profundo parece ir dondequiera que vayan las computadoras. Impulsa los resultados de los motores de búsqueda, las redes sociales y el reconocimiento facial. «Hemos tenido grandes éxitos con el aprendizaje profundo», dice Amini. «Las redes neuronales son realmente buenas para saber la respuesta correcta el 99 por ciento de las veces». Pero el 99 por ciento no lo cortará cuando haya vidas en juego.

“Una cosa que ha eludido a los investigadores es la capacidad de estos modelos para saber y decirnos cuándo podrían estar equivocados”, dice Amini. «Realmente nos preocupamos por ese 1 por ciento de las veces y cómo podemos detectar esas situaciones de manera confiable y eficiente».

Las redes neuronales pueden ser masivas, a veces rebosantes de miles de millones de parámetros. Por lo tanto, puede ser un gran esfuerzo computacional solo obtener una respuesta, y mucho menos un nivel de confianza. El análisis de la incertidumbre en las redes neuronales no es nuevo. Pero los enfoques anteriores, derivados del aprendizaje profundo bayesiano, se han basado en la ejecución o muestreo de una red neuronal muchas veces para comprender su confianza. Ese proceso requiere tiempo y memoria, un lujo que podría no existir en el tráfico de alta velocidad.

Los investigadores idearon una forma de estimar la incertidumbre a partir de una única ejecución de la red neuronal. Diseñaron la red con una producción masiva, produciendo no solo una decisión sino también una nueva distribución probabilística que captura la evidencia en apoyo de esa decisión. Estas distribuciones, denominadas distribuciones probatorias, capturan directamente la confianza del modelo en su predicción. Esto incluye cualquier incertidumbre presente en los datos de entrada subyacentes, así como en la decisión final del modelo. Esta distinción puede indicar si la incertidumbre se puede reducir ajustando la red neuronal en sí, o si los datos de entrada son simplemente ruidosos.

Verificación de confianza

Para poner su enfoque a prueba, los investigadores comenzaron con una desafiante tarea de visión por computadora. Entrenaron su red neuronal para analizar una imagen en color monocular y estimar un valor de profundidad (es decir, la distancia desde la lente de la cámara) para cada píxel. Un vehículo autónomo podría usar cálculos similares para estimar su proximidad a un peatón oa otro vehículo, lo cual no es una tarea sencilla.

El rendimiento de su red estaba a la par con los modelos anteriores de última generación, pero también ganó la capacidad de estimar su propia incertidumbre. Como esperaban los investigadores, la red proyectó una alta incertidumbre para los píxeles donde predijo la profundidad incorrecta. “Estaba muy calibrado para los errores que comete la red, que creemos que fue una de las cosas más importantes para juzgar la calidad de un nuevo estimador de incertidumbre”, dice Amini.

Para poner a prueba su calibración, el equipo también mostró que la red proyectaba una mayor incertidumbre para los datos «fuera de distribución»: tipos de imágenes completamente nuevos que nunca se encontraron durante el entrenamiento. Después de entrenar a la red en escenas domésticas interiores, la alimentaron con un lote de escenas de conducción al aire libre. La cadena advirtió constantemente que sus respuestas a las nuevas escenas al aire libre eran inciertas. La prueba destacó la capacidad de la red para señalar cuándo los usuarios no deben confiar plenamente en sus decisiones. En estos casos, “si se trata de una aplicación sanitaria, tal vez no nos fiamos del diagnóstico que nos está dando el modelo y buscamos una segunda opinión”, dice Amini.

La red incluso sabía cuándo se habían manipulado las fotos, lo que podría protegerse contra ataques de manipulación de datos. En otra prueba, los investigadores aumentaron los niveles de ruido del adversario en un lote de imágenes que enviaron a la red. El efecto fue sutil, apenas perceptible para el ojo humano, pero la red olfateó esas imágenes, etiquetando su salida con altos niveles de incertidumbre. Esta capacidad de hacer sonar la alarma sobre datos falsificados podría ayudar a detectar y disuadir ataques de adversarios, una preocupación creciente en la era de los deepfakes.

La regresión evidencial profunda es “un enfoque simple y elegante que avanza en el campo de la estimación de la incertidumbre, que es importante para la robótica y otros sistemas de control del mundo real”, dice Raia Hadsell, investigadora de inteligencia artificial en DeepMind que no participó en el trabajo. «Esto se hace de una manera novedosa que evita algunos de los aspectos complicados de otros enfoques, por ejemplo, muestreos o conjuntos, lo que lo hace no solo elegante sino también computacionalmente más eficiente, una combinación ganadora».

La regresión evidencial profunda podría mejorar la seguridad en la toma de decisiones asistida por IA. «Estamos empezando a ver muchos más de estos [neural network] los modelos salen del laboratorio de investigación y llegan al mundo real, en situaciones que están afectando a los humanos con consecuencias potencialmente mortales ”, dice Amini. «Cualquier usuario del método, ya sea un médico o una persona en el asiento del pasajero de un vehículo, debe ser consciente de cualquier riesgo o incertidumbre asociados con esa decisión». Él prevé que el sistema no solo marcará rápidamente la incertidumbre, sino que también lo usará para tomar decisiones más conservadoras en escenarios de riesgo, como un vehículo autónomo que se acerca a una intersección.

«Cualquier campo que vaya a tener aprendizaje automático implementable, en última instancia, debe tener un conocimiento confiable de la incertidumbre», dice.

Este trabajo fue apoyado, en parte, por la National Science Foundation y el Toyota Research Institute a través del Toyota-CSAIL Joint Research Center.

Salir de la versión móvil