AWS agrega Guardrails para Amazon Bedrock para ayudar a proteger los LLM

Todos estamos hablando de las ganancias comerciales derivadas del uso de grandes modelos de lenguaje, pero hay muchos problemas conocidos con estos modelos y encontrar formas de limitar las respuestas que un modelo podría dar es una manera de aplicar cierto control a estas poderosas tecnologías. Hoy, en AWS re:Invent en Las Vegas, el director ejecutivo de AWS, Adam Selipsky, anunció Guardrails para Amazon Bedrock.

«Con Guardrails para Amazon Bedrock, puede implementar salvaguardas de manera consistente para brindar experiencias de usuario relevantes y seguras alineadas con las políticas y principios de su empresa», escribió la compañía en una publicación de blog esta mañana.

La nueva herramienta permite a las empresas definir y limitar los tipos de lenguaje que puede utilizar un modelo, de modo que si alguien hace una pregunta que no es realmente relevante para el bot que está creando, no la responderá en lugar de proporcionar una respuesta muy convincente, pero respuesta incorrecta, o peor aún, algo que sea ofensivo y pueda dañar una marca.

En su nivel más básico, la empresa le permite definir temas que están fuera de los límites del modelo, por lo que simplemente no responde preguntas irrelevantes. Como ejemplo, Amazon utiliza una empresa de servicios financieros, que tal vez quiera evitar que el robot dé consejos de inversión por temor a que pueda ofrecer recomendaciones inapropiadas que los clientes puedan tomar en serio. Un escenario como este podría funcionar de la siguiente manera:

“Especifico un tema denegado con el nombre “Asesoramiento de inversión” y proporciono una descripción en lenguaje natural, como “El asesoramiento de inversión se refiere a consultas, orientación o recomendaciones sobre la gestión o asignación de fondos o activos con el objetivo de generar rendimientos o lograr objetivos financieros específicos”.

Además, puede filtrar palabras y frases específicas para eliminar cualquier tipo de contenido que pueda ser ofensivo, mientras aplica filtros fuertes a diferentes palabras y frases para que el modelo sepa que esto está fuera de los límites. Finalmente, puede filtrar los datos PII para mantener los datos privados fuera de las respuestas del modelo.

La función de barandillas se anunció hoy en una vista previa. Probablemente estará disponible para todos los clientes en algún momento del próximo año.