El software de IA llamado DALL-E convierte tus palabras en imágenes

El software DALL-E Mini de un grupo de desarrolladores de código abierto no es perfecto, pero a veces presenta imágenes que coinciden con las descripciones de texto de las personas.

Captura de pantalla

Al desplazarse por sus redes sociales últimamente, es muy probable que haya notado ilustraciones acompañadas de subtítulos. Son populares ahora.

Es probable que las imágenes que está viendo sean posibles gracias a un programa de texto a imagen llamado DALL-E. Antes de publicar las ilustraciones, las personas están insertando palabras, que luego se convierten en imágenes a través de modelos de inteligencia artificial.

Por ejemplo, un usuario de Twitter publicó un tuit con el texto «Ser o no ser, rabino sosteniendo aguacate, escultura de mármol». La imagen adjunta, que es bastante elegante, muestra una estatua de mármol de un hombre barbudo con una túnica y un bombín, agarrando un aguacate.

Los modelos de IA provienen del software Imagen de Google, así como de OpenAI, una empresa nueva respaldada por Microsoft que desarrolló DALL-E 2. En su sitio web, OpenAI llama a DALL-E 2 «un nuevo sistema de IA que puede crear imágenes realistas y arte a partir de una descripción en lenguaje natural».

Pero la mayor parte de lo que sucede en esta área proviene de un grupo relativamente pequeño de personas que comparten sus imágenes y, en algunos casos, generan una gran participación. Eso se debe a que Google y OpenAI no han hecho que la tecnología esté ampliamente disponible para el público.

Muchos de los primeros usuarios de OpenAI son amigos y familiares de empleados. Si buscas acceso, debes unirte a una lista de espera e indicar si eres un artista profesional, desarrollador, investigador académico, periodista o creador en línea.

«Estamos trabajando arduamente para acelerar el acceso, pero es probable que tome algún tiempo hasta que lleguemos a todos; al 15 de junio, hemos invitado a 10,217 personas a probar DALL-E», escribió Joanne Jang de OpenAI en una página de ayuda en el sitio web de la compañía. sitio web.

Un sistema que está disponible públicamente es DALL-E Mini. se basa en el código fuente abierto de un equipo de desarrolladores poco organizado y, a menudo, está sobrecargado de demanda. Los intentos de usarlo se pueden recibir con un cuadro de diálogo que dice «Demasiado tráfico, inténtelo de nuevo».

Es un poco una reminiscencia del servicio Gmail de Google, que atrajo a la gente con espacio de almacenamiento de correo electrónico ilimitado en 2004. Los primeros en adoptarlo solo podían ingresar por invitación al principio, dejando a millones esperando. Ahora Gmail es uno de los servicios de correo electrónico más populares del mundo.

Es posible que la creación de imágenes a partir de texto nunca sea tan omnipresente como el correo electrónico. Pero la tecnología ciertamente está teniendo un momento, y parte de su atractivo está en la exclusividad.

El laboratorio de investigación privado Midjourney requiere que las personas completen un formulario si desean experimentar con su bot de generación de imágenes desde un canal en la aplicación de chat Discord. Solo un grupo selecto de personas está usando Imagen y publicando imágenes de ella.

Los servicios de texto a imagen son sofisticados, identifican las partes más importantes de las indicaciones de un usuario y luego adivinan la mejor manera de ilustrar esos términos. Google entrenó su modelo Imagen con cientos de sus chips de IA internos en 460 millones de pares internos de imagen y texto, además de datos externos.

Las interfaces son simples. Generalmente hay un cuadro de texto, un botón para iniciar el proceso de generación y un área debajo para mostrar imágenes. Para indicar la fuente, Google y OpenAI agregan marcas de agua en la esquina inferior derecha de las imágenes de DALL-E 2 e Imagen.

Las empresas y los grupos que crean el software están justificadamente preocupados por tener a todos asaltando las puertas a la vez. El manejo de solicitudes web para ejecutar consultas con estos modelos de IA puede resultar costoso. Más importante aún, los modelos no son perfectos y no siempre producen resultados que representen con precisión el mundo.

Los ingenieros entrenaron a los modelos en extensas colecciones de palabras e imágenes de la web, incluidas fotos que las personas publicaron en Flickr.

OpenAI, que tiene su sede en San Francisco, reconoce el potencial de daño que podría provenir de un modelo que aprendió a hacer imágenes básicamente explorando la web. Para tratar de abordar el riesgo, los empleados eliminaron el contenido violento de los datos de capacitación y existen filtros que evitan que DALL-E 2 genere imágenes si los usuarios envían indicaciones que podrían violar la política de la empresa contra la desnudez, la violencia, las conspiraciones o el contenido político.

«Hay un proceso en curso para mejorar la seguridad de estos sistemas», dijo Prafulla Dhariwal, científica investigadora de OpenAI.

También es importante comprender los sesgos en los resultados, y representan una preocupación más amplia para la IA. Boris Dayma, un desarrollador de Texas, y otros que trabajaron en DALL-E Mini explicaron el problema en una explicación de su software.

«Las ocupaciones que demuestran niveles más altos de educación (como ingenieros, médicos o científicos) o un alto nivel de trabajo físico (como en la industria de la construcción) están representadas en su mayoría por hombres blancos», escribieron. «Por el contrario, las enfermeras, secretarias o asistentes suelen ser mujeres, a menudo también blancas».

Google describió deficiencias similares de su modelo Imagen en un artículo académico.

A pesar de los riesgos, OpenAI está entusiasmado con los tipos de cosas que la tecnología puede permitir. Dhariwal dijo que podría abrir oportunidades creativas para las personas y podría ayudar con las aplicaciones comerciales para el diseño de interiores o para vestir sitios web.

Los resultados deben continuar mejorando con el tiempo. DALL-E 2, que se presentó en abril, muestra imágenes más realistas que la versión inicial que OpenAI anunció el año pasado, y el modelo de generación de texto de la empresa, GPT, se ha vuelto más sofisticado con cada generación.

«Puede esperar que eso suceda con muchos de estos sistemas», dijo Dhariwal.

RELOJ: ex presidente Obama se enfrenta a la desinformación y dice que podría empeorar con la IA

Salir de la versión móvil