DALL-E 2, el poderoso sistema de inteligencia artificial de texto a imagen de OpenAI, puede crear fotos al estilo de los dibujantes, los daguerrotipistas del siglo XIX, los animadores de stop-motion y más. Pero tiene una importante limitación artificial: un filtro que le impide crear imágenes que muestren figuras públicas y contenido considerado demasiado tóxico.
Ahora, una alternativa de código abierto a DALL-E 2 está a punto de ser lanzada y no tendrá ese filtro.
La startup Stability AI con sede en Londres y Los Altos anunció esta semana el lanzamiento de un sistema similar a DALL-E 2, Stable Diffusion, para poco más de mil investigadores antes de un lanzamiento público en las próximas semanas. Una colaboración entre Stability AI, la empresa de creación de medios RunwayML, los investigadores de la Universidad de Heidelberg y los grupos de investigación EleutherAI y LAION, Stable Diffusion está diseñado para ejecutarse en la mayoría del hardware de consumo de alta gama, generando imágenes de 512 × 512 píxeles en solo unos segundos. cualquier indicación de texto.
“Stable Diffusion permitirá tanto a los investigadores como pronto al público ejecutar esto bajo una variedad de condiciones, democratizando la generación de imágenes”, escribió el CEO y fundador de Stability AI, Emad Mostaque, en una publicación de blog. “Esperamos con ansias el ecosistema abierto que surgirá en torno a este y otros modelos para explorar verdaderamente los límites del espacio latente”.
Pero la falta de garantías de Stable Diffusion en comparación con sistemas como DALL-E 2 plantea preguntas éticas difíciles para la comunidad de IA. Incluso si los resultados aún no son del todo convincentes, hacer imágenes falsas de figuras públicas abre una gran lata de gusanos. Y hacer que los componentes sin procesar del sistema estén disponibles gratuitamente deja la puerta abierta a los malos actores que podrían entrenarlos en contenido subjetivamente inapropiado, como la pornografía y la violencia gráfica.
Creando una difusión estable
Stable Diffusion es una creación de Mostque. Después de graduarse de Oxford con una maestría en matemáticas e informática, Mostque se desempeñó como analista en varios fondos de cobertura antes de cambiar de marcha a trabajos más públicos. En 2019, cofundó Symmitree, un proyecto que tenía como objetivo reducir el costo de los teléfonos inteligentes y el acceso a Internet para las personas que viven en comunidades empobrecidas. Y en 2020, Mostque fue el arquitecto principal de Inteligencia Colectiva y Aumentada contra COVID-19, una alianza para ayudar a los legisladores a tomar decisiones frente a la pandemia mediante el aprovechamiento del software.
Cofundó Stability AI en 2020, motivado tanto por una fascinación personal con la IA como por lo que caracterizó como una falta de «organización» dentro de la comunidad de IA de código abierto.
“Nadie tiene derecho a voto, excepto nuestros 75 empleados, ni multimillonarios, grandes fondos, gobiernos o cualquier otra persona que controle la empresa o las comunidades a las que apoyamos. Somos completamente independientes”, dijo Mostaque a Tecno en un correo electrónico. “Planeamos usar nuestra computación para acelerar la IA fundamental de código abierto”.
Mostque dice que Stability AI financió la creación de LAION 5B, un conjunto de datos de código abierto de 250 terabytes que contiene 5600 millones de imágenes extraídas de Internet. («LAION» significa Red Abierta de Inteligencia Artificial a Gran Escala, una organización sin fines de lucro cuyo objetivo es hacer que la IA, los conjuntos de datos y el código estén disponibles para el público). La compañía también trabajó con el grupo LAION para crear un subconjunto de LAION 5B llamado LAION -Estética, que contiene imágenes filtradas por IA clasificadas como particularmente «hermosas» por los evaluadores de Stable Diffusion.
La versión inicial de Stable Diffusion se basó en LAION-400M, el predecesor de LAION 5B, que se sabía que contenía representaciones de sexo, insultos y estereotipos dañinos. LAION-Aesthetics intenta corregir esto, pero es demasiado pronto para decir hasta qué punto tiene éxito.
En cualquier caso, Stable Diffusion se basa en la investigación incubada en OpenAI, así como en Runway y Google Brain, una de las divisiones de I+D de IA de Google. El sistema se entrenó en pares de texto e imágenes de LAION-Estética para aprender las asociaciones entre conceptos escritos e imágenes, por ejemplo, cómo la palabra «pájaro» puede referirse no solo a pájaros azules, sino también a periquitos y águilas calvas, así como a nociones más abstractas.
En tiempo de ejecución, Stable Diffusion, como DALL-E 2, divide el proceso de generación de imágenes en un proceso de «difusión». Comienza con ruido puro y refina una imagen con el tiempo, acercándola cada vez más a una descripción de texto determinada hasta que no queda nada de ruido.
Stability AI utilizó un grupo de 4000 GPU Nvidia A1000 que se ejecutan en AWS para entrenar Stable Diffusion en el transcurso de un mes. CompVis, el grupo de investigación de aprendizaje y visión artificial de la Universidad Ludwig Maximilian de Múnich, supervisó la capacitación, mientras que Stability AI donó la potencia informática.
Stable Diffusion puede ejecutarse en tarjetas gráficas con alrededor de 5 GB de VRAM. Esa es aproximadamente la capacidad de las tarjetas de gama media como la GTX 1660 de Nvidia, con un precio de alrededor de $230. Se está trabajando para brindar compatibilidad con las tarjetas del centro de datos de AMD MI200 e incluso MacBooks con el chip M1 de Apple (aunque en el caso de este último, sin aceleración de GPU, la generación de imágenes tomará unos minutos).
“Hemos optimizado el modelo, comprimiendo el conocimiento de más de 100 terabytes de imágenes”, dijo Mosque. «Las variantes de este modelo estarán en conjuntos de datos más pequeños, particularmente porque el aprendizaje de refuerzo con retroalimentación humana y otras técnicas se utilizan para tomar estos cerebros digitales generales y hacerlos aún más pequeños y enfocados».
Durante las últimas semanas, Stability AI ha permitido que un número limitado de usuarios consulte el modelo Stable Diffusion a través de su servidor Discord, lo que ralentiza el aumento del número máximo de consultas para realizar pruebas de estrés del sistema. Stability AI dice que más de 15,000 probadores han usado Stable Diffusion para crear 2 millones de imágenes por día.
Implicaciones de largo alcance
Stability AI planea adoptar un enfoque dual para hacer que Stable Diffusion esté más disponible. Alojará el modelo en la nube, lo que permitirá a las personas continuar usándolo para generar imágenes sin tener que ejecutar el sistema ellos mismos. Además, la startup lanzará lo que llama modelos de «referencia» bajo una licencia permisiva que se puede usar para cualquier propósito, comercial o de otro tipo, así como computación para entrenar los modelos.
Eso hará que Stability AI sea el primero en lanzar un modelo de generación de imágenes de casi tan alta fidelidad como DALL-E 2. Mientras que otros generadores de imágenes impulsados por IA han estado disponibles durante algún tiempo, incluidos Midjourney, NightCafe y Pixelz.ai, ninguno ha abierto -Fuente de sus marcos. Otros, como Google y Meta, han optado por mantener sus tecnologías en secreto, permitiendo que solo usuarios selectos las prueben para casos de uso limitados.
Stability AI ganará dinero entrenando modelos «privados» para los clientes y actuando como una capa de infraestructura general, dijo Mostque, presumiblemente con un tratamiento sensible de la propiedad intelectual. La compañía afirma tener otros proyectos comercializables en proceso, incluidos modelos de IA para generar audio, música e incluso video.
“Pronto proporcionaremos más detalles de nuestro modelo de negocio sostenible con nuestro lanzamiento oficial, pero es básicamente el libro de jugadas de software comercial de código abierto: servicios e infraestructura a escala”, dijo Mostque. “Creemos que la IA seguirá el camino de los servidores y las bases de datos, con sistemas patentados abiertos, particularmente dada la pasión de nuestras comunidades”.
Con la versión alojada de Stable Diffusion, la que está disponible a través del servidor Discord de Stability AI, Stability AI no permite cada tipo de generación de imágenes. Los términos de servicio de la startup prohíben material lascivo o sexual (aunque no figuras con poca ropa), imágenes de odio o violentas (como iconografía antisemita, caricaturas racistas, propaganda misógina y misándrica), mensajes que contengan material con derechos de autor o marca registrada e información personal como números de teléfono y números de Seguro Social. Pero Stability AI no implementará filtros a nivel de palabra clave como los de OpenAI, que evitan que DALL-E 2 incluso intente generar una imagen que pueda violar su política de contenido.
Stability AI tampoco tiene una política contra las imágenes con figuras públicas. Presumiblemente, eso hace que los deepfakes sean un juego justo (y las pinturas de estilo renacentista de raperos famosos), aunque el modelo a veces tiene problemas con las caras, introduciendo artefactos extraños que un hábil artista de Photoshop rara vez haría.
“Nuestros modelos de referencia que lanzamos se basan en rastreos web generales y están diseñados para representar las imágenes colectivas de la humanidad comprimidas en archivos de unos pocos gigabytes”, dijo Mostque. “Además del contenido ilegal, hay un filtrado mínimo y depende del usuario usarlo como quiera”.
Potencialmente más problemáticas son las herramientas que se lanzarán próximamente para crear modelos de difusión estable personalizados y ajustados. Un «generador de porno peludo con IA» perfilado por Vice ofrece una vista previa de lo que podría venir; un estudiante de arte con el nombre de CuteBlack entrenó un generador de imágenes para producir ilustraciones de genitales de animales antropomórficos extrayendo obras de arte de sitios de furry fandom. Las posibilidades no se detienen en la pornografía. En teoría, un actor malicioso podría afinar la difusión estable en imágenes de disturbios y sangre, por ejemplo, o propaganda.
Los evaluadores del servidor Discord de Stability AI ya están utilizando Stable Diffusion para generar una variedad de contenido no permitido por otros servicios de generación de imágenes, incluidas imágenes de la guerra en Ucrania, mujeres desnudas, una invasión china imaginaria de Taiwán y representaciones controvertidas de figuras religiosas como el profeta Mahoma. Muchos de los resultados muestran signos reveladores de una creación algorítmica, como extremidades desproporcionadas y una mezcla incongruente de estilos artísticos. Pero otros son pasables a primera vista. Y la tecnología, presumiblemente, seguirá mejorando.
Mostque reconoció que los malos actores podrían usar las herramientas para crear «cosas realmente desagradables», y CompVis dice que el lanzamiento público del modelo de referencia Stable Diffusion «incorporará consideraciones éticas». Pero Mostque argumenta que, al hacer que las herramientas estén disponibles gratuitamente, permite a la comunidad desarrollar contramedidas.
“Esperamos ser el catalizador para coordinar la IA de código abierto global, tanto independiente como académica, para construir infraestructura, modelos y herramientas vitales para maximizar nuestro potencial colectivo”, dijo Mostque. “Esta es una tecnología asombrosa que puede transformar a la humanidad para mejor y debería ser una infraestructura abierta para todos”.
No todos están de acuerdo, como lo demuestra la controversia sobre «GPT-4chan», un modelo de IA entrenado en uno de los infames foros de discusión tóxicos de 4chan. El investigador de IA Yannic Kilcher hizo que GPT-4chan, que aprendió a generar discursos de odio racistas, antisemitas y misóginos, estuviera disponible a principios de este año en Hugging Face, un centro para compartir modelos de IA capacitados. Luego de las discusiones en las redes sociales y la sección de comentarios de Hugging Face, el equipo de Hugging Face primero «bloqueó» el acceso al modelo antes de eliminarlo por completo, pero no antes de que se descargara más de mil veces.