Probé los generadores de imágenes de IA más populares para descubrir sus mayores fortalezas y debilidades.
En Ahrefs, contamos con un equipo de personas extremadamente capacitadas (y muy humano) diseñadores, pero no todos tienen ese lujo. Quería saber: ¿son útiles los generadores de imágenes de IA para publicar publicaciones rápidas en redes sociales, crear gráficos para publicaciones de blogs o ahorrar unos cuantos dólares en costosas fotografías de archivo?
Así que probé las herramientas de conversión de texto a imagen basadas en la nube más populares: DALL-E 3 (disponible en ChatGPT), Midjourney, Canva’s Magic Media, Adobe Firefly y el nuevo Gemini for Workspace.
Todas estas herramientas generan imágenes con unos pocos clics, sin necesidad de hacer nada complicado como entrenar modelos personalizados o ejecutar programas localmente en su computadora.
El mejor generador de imágenes con IA es, en mi opinión, Adobe luciérnaga. Todos los modelos tenían sus propios puntos fuertes, pero Firefly ofrecía el máximo control sobre la generación y edición de imágenes.
Aquí están los pros y los contras (y muchas, muchas imágenes) compartiendo mi experiencia con cada uno.
| Generador de imágenes de IA | Lo mejor para… | Precios |
|---|---|---|
| Adobe luciérnaga | Lo mejor para un control máximo sobre las imágenes | 25 créditos gratis por mes; $4.99 por 100 créditos |
| A mitad del viaje | Lo mejor para imágenes hermosas | Desde 10 $/m durante 200 generaciones |
| DALL-E 3 / ChatGPT | Lo mejor para la visualización de datos | 2 imágenes gratis por día en el plan Gratis; el acceso completo comienza en $20/mes en el plan Plus |
| Medios mágicos de Canva | Lo mejor para generar imágenes vectoriales | 50 imágenes disponibles para usuarios de Canva Free; 500 imágenes por mes para usuarios pagos (desde $14,99/m) |
| Géminis para el espacio de trabajo | Lo mejor para una concepción rápida | Disponible como complemento de Google Workspace desde $20/mes |
Quería probar cada generador de imágenes de IA en una variedad de escenarios diferentes, así que creé toneladas de indicaciones en tres categorías principales:
- Fotografía de archivo (p.ej “Fotografía de archivo de una hermosa oficina en casa minimalista con vista a los árboles afuera”)
- Gráficos e ilustraciones (p.ej «Un personaje de dibujos animados con cabello pelirrojo que lleva una enorme llave dorada para representar la «investigación de palabras clave».”)
- Visualizaciones de datos (p.ej “Gráfico de datos de tráfico del sitio web: enero 946, febrero 1071, marzo…”)
Probé diferentes niveles de complejidad de las indicaciones, pero en general mantuve mis indicaciones simples. El objetivo de estas herramientas de conversión de texto a imagen es describir algo que usted desea y hacer que la IA lo cree por usted, por lo que evité deliberadamente la ingeniería rápida a nivel de doctorado o la jerga de diseño profesional.
Aquí hay una foto mía realizando estas pruebas:
(Es broma, esto fue generado por Adobe Firefly usando una foto mía como referencia. Vivimos en tiempos extraños).
Luego juzgué la salida de cada generador de imágenes de IA en algunas dimensiones clave:
- Exactitud: ¿Qué tan bien siguió mi dirección el generador de imágenes?
- Facilidad de edición: ¿Qué tan fácil fue editar y refinar el resultado?
- Lo extraño: ¿El resultado parecía extraño o era obviamente generado por IA?
- Legibilidad del texto: ¿Qué tan bien manejó el modelo la generación de texto?
- Consistencia: ¿Podría reproducir imágenes similares en múltiples ocasiones?
- Utilidad: ¿Podría realmente utilizar la salida en la vida real?
Aquí están mis hallazgos.
Adobe Firefly tiene, con diferencia, los mejores controles de edición de los generadores de imágenes que probé. Esto no es sorprendente, considerando que Adobe fabrica Photoshop, Illustrator, Lightroom y docenas de otras herramientas de diseño líderes en el mercado.
He aquí un ejemplo. el aviso “Un personaje de dibujos animados con cabello pelirrojo que lleva una enorme llave dorada para representar la ‘investigación de palabras clave’” generó una serie de imágenes buenas pero no geniales. Pero con unos pocos clics pude solucionar los problemas más importantes y mejorar drásticamente el resultado.
Aquí está el antes:

La IA es muy mala dibujando manos, tan mala que Firefly abandonó el juego a mitad de camino.
En unos minutos usando Firefly, pude:
- Cambiar el tamaño de la relación de aspecto de 1:1 a 4:3 usando relleno generativo.
- Reparar una mano perdida solicitando a Firefly que regenere esa parte específica de la imagen.
- Mejora la imagen pequeña y de baja calidad a una resolución de 2k mucho más útil.
Y aquí está el después:


Adobe Firefly también te brinda mucho control sobre el proceso de generación de imágenes. Una gran ventaja: puedes utilizar imágenes existentes como referencias de estilo y composición, lo que hace que sea mucho más fácil generar una serie de imágenes con un estilo coherente.
Aquí está el mensaje “Un personaje de dibujos animados con cabello pelirrojo que lleva una lupa enorme para representar la ‘investigación de la competencia’”pero usando mi generación de imagen anterior como referencia:


El estilo es ligeramente diferente, pero se sienten reconociblemente similares. También puede especificar estilos de referencia particulares, composiciones, tipos de contenido (como arte versus fotografía) e incluso efectos (color, iluminación, bokeh, ángulos de cámara, lo que sea).
Eso significa que puede utilizar el mismo mensaje pero obtener resultados muy diferentes. Aquí está el resultado del mensaje. “Hermosa oficina en casa minimalista con vista a los árboles afuera” cuando he especificado iluminación de la hora dorada y tonos cálidos:


Y aquí he usado el mismo mensaje pero pedí iluminación baja y tonos fríos para una vibra muy diferente:


Y como Firefly está creado por Adobe, puede importar las imágenes generadas a otros productos de Adobe para agregar texto o editarlas más. Bastante útil.
La mitad del viaje es hermosa. He sido cliente de pago de Midjourney durante tres años por la sencilla razón de que todo lo que genera es magnífico y más agradable desde el punto de vista estético que cualquier otro modelo de IA que haya probado.
Utilizo Midjourney para ilustrar mi escritura creativa y destaca en la ilustración de estilo fantástico. Aquí hay una imagen que creé para una de mis novelas, sin edición ni manipulación:


También es bastante útil para el fotorrealismo. Aquí está el mensaje “Fotografía de archivo de una hermosa oficina en casa minimalista con vista a los árboles afuera”:


Hay un par de AI-ismos (¡¿cuántas ruedas tiene esa silla?!), pero quiero perdonarlos porque la foto es muy hermosa.
Aquí está “Fotografía de archivo de una persona pensativa en una reunión en una empresa de software”, presenta a un hombre generado por IA tan guapo que no quería mirarme en un espejo por el resto del día:


Incluso las ilustraciones de dibujos animados de Midjourney parecen elegantes y casi lo suficientemente buenas como para ser extraídas de los fotogramas de una película de Pixar:

Ignoremos la mano izquierda hacia atrás.
Midjourney tiene debilidades. Categóricamente no puede hacer visualización de datos. Aliméntelo incluso con datos simples y generará tonterías (pero al menos será hermoso disparates):

Espero compartir este gráfico del tráfico de publicaciones de blog en mi resumen del primer trimestre.
Los flujos de trabajo de edición de Midjourney son mucho mejores de lo que solían ser, pero aún no son muy sofisticados. Además de generar cuatro imágenes para cada mensaje, tienes la opción de:
- Variar cualquier imagencualquiera fuerte o sutil (básicamente regenerar una imagen que sea muy similar a la anterior).
- Imágenes exclusivas que te gustan a mayor resolución.
- Eliminar partes de la imagen. (pero no especifique con qué le gustaría reemplazarlo).
- Cambiar la relación de aspecto (cuadrado, 4:3, 16:9, etc.).
A continuación se muestra un ejemplo de cómo variar una imagen. Hay pequeñas y sutiles diferencias entre cada foto, como la cantidad de ruedas de la silla, lo que resulta útil para minimizar cualquier IA extraña en las imágenes que te gustan:


Estas opciones no son tan precisas como el flujo de trabajo de edición de Adobe Firefly, pero dada la capacidad de Midjourney para crear imágenes generalmente hermosas a partir de indicaciones simples y únicas, este flujo de trabajo crea imágenes sorprendentemente útiles.
(Y como ventaja final, ya no tendrás que depender de un servidor de Discord desagradable para generar imágenes; la aplicación web de Midjourney funciona muy bien).
Dada la popularidad de ChatGPT, DALL-E 3, el modelo de generación de imágenes ofrecido como parte de ChatGPT, será la primera introducción para la mayoría de las personas a los generadores de imágenes de IA. Es una pena, porque es uno de los peores.
Para aclarar este punto, esto es lo que sucedió cuando pedí un “Fotografía de archivo de alguien trabajando con su computadora portátil en una cafetería de Nueva York”:


Esto es bastante representativo de DALL-E 3: la mayoría de sus imágenes se ven y se sienten como si estuvieran generadas por IA.
Mire por un momento y verá texto sin sentido, muebles que se mezclan con el fondo, un extraño brillo de valle inquietante para el personaje principal, líneas rectas que nunca lo son… y la mayoría de las imágenes de ChatGPT sufren los mismos problemas.
Aquí está ChatGPT tratando de hacerme creer que esto es un fotografía de una oficina en casa (los árboles parecen un maldito cuadro de puntillismo):


Estas cuestiones son al menos menos obvias en las imágenes de dibujos animados. Aquí está nuestro personaje sosteniendo una llave nuevamente:


No está mal, a pesar de un par de AI-ismos, como la llave de doble punta y el extraño amuleto abstracto de la mochila. Desafortunadamente, no pude eliminar estas pequeñas peculiaridades, porque aunque ChatGPT agregó recientemente la capacidad de resaltar partes de la imagen para editarla selectivamente, esta característica era muy poco confiable cuando la probé.
En una ocasión, ChatGPT incluso decidió que, en realidad, no, no quería que hiciera cualquier edición de imágenes:


Sin mucho control sobre la generación o edición de imágenes, DALL-E 3 es un poco complicado y es prácticamente imposible aplicar estilos consistentes en todas las imágenes.
Cuando intenté hacer una nueva imagen con el mismo personaje de dibujos animados, cambió radicalmente de estilo:


Tampoco puedes mejorar fácilmente tus imágenes, y cuando le pedí a ChatGPT que cambiara el tamaño de una miniatura de YouTube a una resolución de 16:9, decidió escribir un script en Python para estirar la imagen al formato horizontal.
Lo cual, err… no tenía buena pinta:


Cuando intenté refinar el mensaje para reflejar las pautas de marca de Ahrefs, me dio una lección sobre el diseño de miniaturas y en realidad no creó una imagen.
Generar imágenes con ChatGPT me recuerda a jugar el videojuego DOOM en una calculadora. Podría ser técnicamente posible, pero probablemente no deberías hacerlo.
ChatGPT tenía una gran virtud redentora, donde su inclinación por Python fue extremadamente útil: la visualización de datos. fue el solo Generador de imágenes de IA capaz de convertir una lista de puntos de datos en un gráfico preciso:


Y también puede manejar visualizaciones de datos más complejas:


Este es un tipo diferente de “generación de imágenes”, pero para alguien como yo, que procesa datos a diario, es increíblemente útil y es una característica que uso todo el tiempo.
Magic Media de Canva es un generador de imágenes de IA integrado directamente en la aplicación principal de Canva. Para comenzar, se le ofrece la opción de imagen, gráficoo video.
Maneja bastante bien la fotografía de archivo: aquí está nuestro consejo para una hermosa oficina en casa:

Las mesas de tres patas están muy de moda en este momento.
Puede elegir uno de alrededor de dos docenas de estilos específicos para emular y preestablecer la relación de aspecto de la foto. Aquí está nuestra cafetería de Nueva York con el Malhumorado estilo aplicado:


Aquí, comenzamos a ver la mayor debilidad de Magic Media: el fotorrealismo del valle inquietante.
Aquí hay otro intento de fotografía de archivo que casi se ve bien… excepto por las manos deformadas, la física confusa de los brazos y el conjunto de fondo de monstruos con caras derretidas:


También es útil para generar arte vectorial, y las imágenes se pueden exportar directamente como PNG sin fondo, pero las imágenes en sí son un poco amateur.
Aquí está nuevamente nuestra figura de dibujos animados que sostiene una llave, esta vez sosteniendo una llave perfectamente lisa en una mano y una llave más pequeña, aparentemente derretida, en la otra:


Aquí está el aterrador resultado de usar el mismo mensaje con el Cromo 3D estilo aplicado:

Querido Canva: nadie pidió esto.
Debido a que Magic Media está integrado en Canva, es increíblemente fácil agregar texto, cambiar el tamaño de la imagen terminada o agregar efectos a las imágenes generadas. Esto es una gran ventaja, pero en mi opinión no es suficiente para compensar la calidad amateur de la generación de imágenes.
A continuación se muestra un ejemplo de lo rápido que se están desarrollando las herramientas de inteligencia artificial. Mientras escribía esta publicación de blog, Google agregó capacidades de generación de imágenes de IA directamente en Documentos de Google. Ahora, puedes usar el comando @image y seleccionar “Ayúdame a crear una imagen”.
Es bastante simple. Puede utilizar una de las tres relaciones de aspecto y especificar uno de los seis estilos predeterminados, y Google le devolverá cuatro imágenes para elegir.
Aquí hay una pequeña imagen decente para el mensaje. “Un personaje de dibujos animados con cabello pelirrojo que lleva una lupa enorme”:


Y aquí está “Un personaje de dibujos animados con…








