Han pasado solo unas pocas semanas desde que OpenAI comenzó a permitir a los clientes usar comercialmente imágenes creadas por DALL-E 2, su sistema de texto a imagen de IA notablemente poderoso. Pero a pesar de las limitaciones técnicas actuales y la falta de licencias por volumen, sin mencionar la API, algunos pioneros dicen que ya están probando el sistema para varios casos de uso comercial, esperando el día en que DALL-E 2 se vuelva lo suficientemente estable como para implementarlo en producción. .
Stitch Fix, el servicio en línea que utiliza algoritmos de recomendación para personalizar la ropa, dice que ha experimentado con DALL-2 para visualizar sus productos en función de características específicas como el color, la tela y el estilo. Por ejemplo, si un cliente de Stitch Fix pidió un «jean ceñido, elástico, rojo y de tiro alto» durante el programa piloto, se usó DALL-E 2 para generar imágenes de ese artículo, que un estilista podría usar para combinarlo con un artículo similar. producto en el inventario de Stitch Fix.
“DALL-E 2 nos ayuda a mostrar las características más informativas de un producto de una manera visual y, en última instancia, ayuda a los estilistas a encontrar el artículo perfecto que coincida con lo que un cliente ha solicitado en sus comentarios escritos”, dijo un portavoz a Tecno por correo electrónico.
Por supuesto, DALL-E 2 tiene peculiaridades, algunas de las cuales hacen que los primeros usuarios corporativos se detengan. Eric Silberstein, vicepresidente de ciencia de datos de la empresa emergente de comercio electrónico Klaviyo, describe en una publicación de blog sus impresiones mixtas sobre el sistema como una posible herramienta de marketing.
Señala que las expresiones faciales en los modelos humanos generados por DALL-E 2 tienden a ser inapropiadas y los músculos y las articulaciones desproporcionados, y que el sistema no siempre comprende perfectamente las instrucciones. Cuando Silberstein le pidió a DALL-E 2 que creara la imagen de una vela sobre una mesa de madera contra un fondo gris, DALL-E 2 a veces borraba la tapa de la vela y la mezclaba con el escritorio, o añadía un borde incongruente alrededor de la vela.
“Para fotos con humanos y fotos de humanos modelando productos, no se podía usar tal cual”, escribió Silberstein. Aún así, dijo que consideraría usar DALL-E 2 para tareas como dar puntos de partida para ediciones y transmitir ideas a los artistas gráficos. “Para fotos de archivo sin humanos e ilustraciones sin pautas de marca específicas, DALL·E 2, para mi ojo no experto, podría reemplazar razonablemente la ‘forma antigua’ en este momento”, continuó Silberstein.
Los editores de Cosmopolitan llegaron a una conclusión similar cuando se asociaron con la artista digital Karen X. Cheng para crear una portada para la revista utilizando DALL-E 2. Llegar a la portada final requirió indicaciones muy específicas de Cheng, que según los editores es ilustrativo de la limitación de DALL-E 2 como generador de arte.
Pero la rareza de la IA funciona a veces, como una característica, en lugar de un error. Para su campaña Draw Ketchup, Heinz hizo que DALL-E 2 generara una serie de imágenes de botellas de ketchup usando términos de lenguaje natural como «ketchup», «ketchup art», «fuzzy ketchup», «ketchup en el espacio» y «ketchup renacimiento». .” La compañía invitó a los fanáticos a enviar sus propias indicaciones, que Heinz seleccionó y compartió en sus canales sociales.
“Con las imágenes de IA dominando las noticias y las redes sociales, vimos una oportunidad natural para extender nuestra campaña ‘Draw Ketchup’; arraigado en la idea de que Heinz es sinónimo de la palabra ketchup, para probar esta teoría en el espacio de la IA”, dijo Jacqueline Chao, gerente senior de marca de Heinz, en un comunicado de prensa.
Claramente, las campañas impulsadas por DALL-E 2 pueden funcionar cuando el tema es la IA. Pero varios usuarios comerciales de DALL-E 2 dicen que han manejado el sistema para generar activos que no muestran los signos reveladores de las limitaciones de la IA.
Jacob Martin, ingeniero de software, utilizó DALL-E 2 para crear un logotipo para OctoSQL, un proyecto de código abierto que está desarrollando. Por alrededor de $ 30, aproximadamente el costo de los servicios de diseño de logotipos en Fiverr, Martin terminó con una imagen de dibujos animados de un pulpo que parece una ilustración humana a simple vista.
“El resultado final no es ideal, pero estoy muy contento con él”, escribió Martin en una publicación de blog. “En lo que respecta a DALL-E 2, creo que en este momento todavía se encuentra en una fase de “primera iteración” para la mayoría de los bits y propósitos, la principal excepción son los bocetos a lápiz; esos son asombrosamente buenos… Creo que el verdadero avance vendrá cuando DALL-E 2 sea 10x-100x más barato y más rápido”.
Un usuario de DALL-E 2, Don McKenzie, jefe de diseño de la startup de desarrollo Deephaven, llevó la idea un paso más allá. Probó la aplicación del sistema para generar miniaturas en el blog de la empresa, motivado por la idea de que las publicaciones con imágenes obtienen mucha más participación que las que no las tienen.
“Como un pequeño equipo compuesto principalmente por ingenieros, no tenemos el tiempo ni el presupuesto para encargar obras de arte personalizadas para cada una de nuestras publicaciones de blog”, escribió McKenzie en una publicación de blog. “Hasta ahora, nuestro enfoque ha sido pasar 10 minutos desplazándonos a través de imágenes relacionadas tangencialmente pero que en última instancia no encajan de sitios de fotos de archivo, descargar algo que no sea terrible, colocarlo en el frente y presionar publicar”.
Después de gastar un fin de semana y $45 en créditos, McKenzie dice que pudo reemplazar unas 100 publicaciones de blog con imágenes generadas por DALL-E 2. Fue necesario jugar con las indicaciones para obtener los mejores resultados, pero McKenzie dice que valió la pena el esfuerzo.
“En promedio, diría que tomó un par de minutos y de cuatro a cinco indicaciones por publicación de blog para obtener algo con lo que estaba contento”, escribió. “Estábamos gastando más dinero y tiempo en imágenes de archivo al mes, con un peor resultado”.
Para las empresas que no tienen tiempo para dedicarlo a las lluvias de ideas, ya existe una startup que intenta comercializar las capacidades de generación de activos de DALL-E 2. Unstock.ai, creado sobre DALL-E 2, promete «imágenes e ilustraciones de alta calidad bajo demanda», sin cargo, por el momento. Los clientes ingresan un aviso (p. ej., «Vista superior de tres peces dorados en una pecera») y luego eligen un estilo preferido (arte vectorial, fotorrealista, dibujado a lápiz) para crear imágenes, que se pueden recortar y cambiar de tamaño.
Unstock.ai esencialmente automatiza la ingeniería rápida, un concepto en IA que busca incrustar una descripción de tarea en el texto. La idea es proporcionar instrucciones detalladas a un sistema de IA para que cumpla de manera confiable lo que se le pide; en general, los resultados para un aviso como «Fotograma de una mujer tomando café, caminando al trabajo, teleobjetivo» serán mucho más consistentes que «Una mujer caminando».
Es probable que sea un presagio de las aplicaciones por venir. Cuando se contactó para hacer comentarios, OpenAI se negó a compartir números sobre los usuarios comerciales de DALL-E 2. Pero anecdóticamente, la demanda parece estar ahí. Han surgido soluciones no oficiales a la falta de API de DALL-E 2 en la web, unidas por desarrolladores ansiosos por incorporar el sistema en aplicaciones, servicios, sitios web e incluso videojuegos.
Continuar leyendo: Las empresas, incluido Stitch Fix, ya están experimentando con DALL-E 2 – Tecno