OpenAI anunció una nueva e interesante herramienta: Sora, un modelo de IA que puede generar videos hiperrealistas a partir de texto.
Sora puede crear videos de hasta un minuto de duración con escenas muy detalladas, movimientos de cámara complejos y múltiples personajes con emociones vibrantes, escribió OpenAI en un tweet reciente – así se generaron imágenes históricas de California durante la fiebre del oro:
OpenAI comparte un vídeo hiperrealista de Sora, su nuevo modelo de IA de conversión de texto a vídeo. El mensaje: imágenes históricas de California durante la fiebre del oro. pic.twitter.com/ZRzWm5BHQH
—Michelle Hawley (@msophiahawley) 16 de febrero de 2024
Sora se basa en la tecnología de DALL-E, la herramienta de generación de texto a imagen de OpenAI. Sora no sólo entiende lo que los usuarios piden en el mensaje de texto, sino también cómo existen esas cosas en el mundo físico.
Sora solo está disponible para usuarios seleccionados
Sora actualmente no está disponible para el público en general. Solo está disponible para los miembros del equipo rojo (expertos en áreas como desinformación, prejuicios y contenido de odio) para probar áreas críticas en busca de daños o riesgos. OpenAI también otorgó acceso a un puñado de artistas visuales, diseñadores y cineastas en un intento de obtener comentarios sobre cómo mejorar el modelo para los profesionales creativos.
OpenAI aún no ha publicado información sobre cuándo estará disponible Sora para uso general y no hay una lista de espera a la que los usuarios puedan unirse. Sin embargo, si desea ver el modelo de IA en acción, muchos usuarios (junto con OpenAI) comparten sus experiencias en línea.
Mensaje: “Un tráiler de película que presenta las aventuras del hombre espacial de 30 años que lleva un casco de motocicleta tejido de lana roja, cielo azul, desierto salado, estilo cinematográfico, filmado en película de 35 mm, colores vivos”. pic.twitter.com/0JzpwPUGPB
—OpenAI (@OpenAI) 15 de febrero de 2024
Sam Altman, director ejecutivo de OpenAI, también indicaciones solicitadas para videos de Sora en Twitter, que desean mostrar el modelo de IA en acción. Siguió diciéndoles a los usuarios que no «retengan los detalles o las dificultades».
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
—Sam Altman (@sama) 15 de febrero de 2024
Artículo relacionado: Midjourney vs. DALL-E 2 vs. Difusión estable. ¿Qué generador de imágenes con IA es mejor para los especialistas en marketing?
Cómo funciona Sora
Sora es un modelo de difusión que se basa en investigaciones anteriores en los modelos DALL-E y GPT. Utiliza la técnica de recaptioning de DALL-E 3, lo que significa que puede generar subtítulos altamente descriptivos para los datos de entrenamiento visual y seguir las instrucciones de texto de los usuarios con mayor precisión.
Al igual que los modelos GPT, Sora utiliza una arquitectura de transformador, lo que le permite tener un excelente rendimiento de escalado. Este nuevo modelo de IA crea vídeos que empiezan pareciendo ruido estático. Luego transforma gradualmente esos videos eliminando el ruido en muchos pasos.
Si bien Sora genera videos a partir de texto, los usuarios también pueden solicitarle otras entradas, como imágenes o videos preexistentes. Por ejemplo, los usuarios pueden crear una imagen con DALL-E y luego pedirle a Sora que anime esa imagen.
La edición de vídeo a vídeo también es una opción. Los usuarios pueden cargar videos en Sora y usar el modelo de difusión para editar el video, como cambiar la configuración del video, conectar dos videos de entrada con una transición perfecta o extender videos hacia atrás o hacia adelante en el tiempo para producir un bucle infinito.
Y aunque ahora Sora es la comidilla de Internet por sus impresionantes vídeos realistas, el modelo también es capaz de generar imágenes con una resolución de hasta 2048×2048.
Sora todavía tiene debilidades
Según OpenAI, Sora todavía tiene algunas imperfecciones, alegando que puede tener dificultades para simular con precisión la física de una escena o comprender instancias específicas de causa y efecto.
Un ejemplo que dieron fue que si una persona le da un mordisco a una galleta, es posible que después la galleta no tenga una marca de mordisco.
Muchos de los videos compartidos en línea tienen estos signos reveladores de IA, como este video compartido por Altman en Twitter donde una mujer que hace una demostración de cocina tiene una cuchara que desaparece mágicamente.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
—Sam Altman (@sama) 15 de febrero de 2024
O este video que muestra una manada de coyotes que parecen fusionarse y separarse unos de otros. OpenAI comentó en el video: «Los animales o las personas pueden aparecer espontáneamente, especialmente en escenas que contienen muchas entidades».
Otro vídeo de Sora que muestra una de las debilidades de los modelos de IA.
Mensaje: Cinco cachorros de lobo gris retozando y persiguiéndose unos a otros por un camino de grava remoto, rodeados de hierba. Los cachorros corren y saltan, se persiguen y se mordisquean mientras juegan. pic.twitter.com/Jr0FJfzWeg
—Michelle Hawley (@msophiahawley) 16 de febrero de 2024
Preocupaciones y seguridad de los vídeos de IA
OpenAI está creando herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede indicar cuándo Sora generó un video.
Además de desarrollar nuevas herramientas y técnicas, la compañía también planea utilizar métodos de seguridad existentes creados para DALL-E 3, como transformaciones rápidas, que reescriben el texto enviado para cumplir con las pautas (como no usar nombres de figuras públicas) y listas de bloqueo, que puede bloquear la salida de ciertas imágenes.
OpenAI también planea trabajar con formuladores de políticas, educadores y artistas globales para comprender las preocupaciones e identificar casos de uso positivos para la nueva tecnología. Sin embargo, la compañía dijo: «A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas usarán nuestra tecnología, ni todas las formas en que abusarán de ella».
Con fácil acceso al contenido generado por IA, muchos están preocupados por el aumento de la desinformación, llegando incluso a decir que la IA es una amenaza potencial para la democracia.
En una entrevista de PBS NewsHour, Lauren Barrón-López, corresponsal de la Casa Blanca, dijo que si bien la IA se ha utilizado antes en elecciones pasadas, “las herramientas generativas de IA ahora están más ampliamente disponibles y son mucho más sofisticadas”. Y aunque algunas empresas han decidido etiquetar el contenido de IA, no lo están prohibiendo por completo, y Twitter ni siquiera acepta etiquetar el contenido generativo de IA que podría ser falso.
La interferencia política tampoco es la única preocupación cuando se trata de vídeo generativo con IA. Muchas figuras públicas han quedado atrapadas en el fuego cruzado de videos falsos, con ejemplos notables que incluyen una versión de inteligencia artificial de Tom Hanks que promociona el seguro dental, un especial de stand-up generado por inteligencia artificial del fallecido comediante George Carlin e incluso contenido de inteligencia artificial sexualmente explícito de una superestrella de la música. Taylor Swift.
Artículo relacionado: Lo que las marcas necesitan saber sobre los modelos de generación de imágenes con IA
Sora no es el único generador de vídeos con IA
Sora no es el primer modelo de IA que puede producir videos a partir de mensajes de texto, pero puede que sea el más impresionante.
Los generadores de vídeo con IA comenzaron a aparecer a finales de 2022, como Make-A-Video de Meta, Lumiere de Google y el modelo Gen-1 de Runway. Sin embargo, la mayoría de estos modelos producen resultados de baja calidad y con fallas que duran solo unos segundos.
Sora de OpenAI, por otro lado, puede producir videos de hasta un minuto de duración, con la capacidad adicional de crear videos de transición que pueden unir varios videos sin problemas. Si bien Sora puede producir contenido animado de alta calidad, muchos de sus videos están llenos de detalles que los hacen fáciles de confundir con contenido de la vida real, especialmente para aquellos que no están acostumbrados a buscar los signos reveladores de la IA.
¿Es Sora el camino hacia AGI?
La inteligencia artificial general (AGI), un tipo de inteligencia en la que una máquina puede comprender, aprender y pensar como un humano, es todavía sólo una hipótesis. Pero eso no impide que empresas como OpenAI, Microsoft, Meta y otras intenten hacerlo realidad.
En última instancia, dijo OpenAI, Sora sirve como base para modelos que pueden comprender y estimular el mundo real, «una capacidad que creemos que será un hito importante para lograr AGI».
altman tuiteó Después del lanzamiento de Sora, OpenIA está «extremadamente centrado en crear AGI».
¿Tiene algún consejo para compartir con nuestro equipo editorial? Escríbanos:
Continuar leyendo: Conozca a Sora, el impresionante generador de videos de IA de OpenAI