Cómo funciona la difusión estable | mundo inteligente

Cómo funciona la difusión estable

La inteligencia artificial generativa es cada vez más preponderante en nuestras vidas, y si eres artista o te apasiona crear Imágenes empezando por texto, seguro que te habrás topado Difusión estable.

A diferencia de los populares. a mitad de camino Y DARLESin embargo, el modelo AI se puede descargar por su cuenta dispositivo. Pero lo que es y como funciona Difusión estable? Averigüemos y averigüemos cómo úsalo, así como recordarte nuestras guías sobre los apodados Midjourney y DALL-E.

Índice

¿Qué es la IA de difusión estable?

Los modelos generativos de IA nos permiten generar nuevos datos similares a los que han visto durante su fase de aprendizaje, y los que generan Imágenes son capaces de «entender» su entrada de texto, llamada aviso, para crear o editar, bueno, Imágenes.

Sin embargo, no todos los modelos son iguales y usan algoritmos Y pesos (los pesos son parámetros dentro de una red neuronal que transforman los datos de entrada dentro de capas ocultas de la red) diferentes.

Stable Diffusion, utilizado principalmente para generar imágenes o para modificar imágenes existentes a través de técnicas de pintura interior o exterior, fue desarrollado en colaboración entre el grupo CompVis de la Universidad Ludwig Maximilian de Munich (Alemania), que inventó la arquitectura básica, la start-up Stability AI , que lo financió y LAION. El modelo fue lanzado en 2022 bajo licencia. Creative ML OpenRAIL-M, lo que significa que se puede utilizar con fines comerciales y no comerciales.

Pero, ¿en qué se diferencia de modelos como DARLE de OpenAI o a mitad de camino? En primer lugar, Difusión estable es de código abierto, su código y sus pesos se han hecho públicos, mientras que los modelos mencionados anteriormente son propietarios. Además, aunque solo se puede acceder a estos dos modelos desde la Web, Stable Diffusion se puede descargar en una computadora potente promedio, siempre que esté equipada con una GPU con al menos 8 GB de VRAM.

Pero esta no es la única diferencia con los demás. modelos, ya que el algoritmo subyacente al modelo también es muy diferente.

Averigüemos cómo.

Cómo funciona la difusión estable

La IA puede generar Imágenes de varias maneras, pero Stable Diffusion utiliza una técnica conocida como modelo De difusión latente (LDM, modelo de difusión latente).

De hecho, Stable Diffusion pertenece a una clase de modelos de aprendizaje profundo llamados modelos de difusión porque se caracteriza por una matemática que se parece mucho a la difusión en la física. Piense en una gota de tinta que cae en un vaso de agua: se esparce y después de unos minutos se distribuye aleatoriamente. Digamos que entrenamos un modelo con imágenes de perros o gatos: el modelo toma una imagen, por ejemplo de un gato o de un perro, y agrega ruido en pasos sucesivos, hasta que ya no entiendas lo que representa esta imagen. Este es el propagación hacia adelante.

Lo increíble es que este proceso se puede invertir: de una imagen ruidosa se puede recuperar la imagen del gato (o perro). Este proceso se llama difusión inversa y ocurre siguiendo los mismos pasos de tiempo que para la difusión directa.

Fuente: Vega IT

Este proceso, que en Difusión Estable se llama predictor de ruido (predictor de ruido), ocurre gracias a una red neuronal convolucional completamente conectada llamada U-redampliamente utilizado en el campo de la máquina y el aprendizaje profundo y capacitado para estimar la cantidad de ruido en la imagen

En la práctica, durante el entrenamiento tomas algunos Imágenes (por ejemplo de perros o gatos), agregas del ruido en pasos sucesivos (tiempos) y se enseña en vaticinador de ruido cuánto ruido se agregó calibrando sus pesos y mostrándole el resultado correcto.

U-Net se llama así porque su arquitectura se asemeja a la letra U y se distingue por su capacidad de tomar una imagen y encontrar una representación en talla baja de esa imagen reduciendo el muestreo (es decir, encontrando los atributos importantes) y devolviendo la imagen a la primera dimensión aumentando el muestreo. Más adelante comprenderemos la importancia de este concepto.

Fuente: Vega IT

Eventualmente, al mostrar una imagen, el predictor de ruido podrá decir cuánto ruido hubo. agregadolo que significa que si damos al vaticinador de ruido una imagen con ruido completamente al azaresto podrá obtener una imagen de un gato (o perro) de él.

Este proceso se llama generación incondicionalporque no somos capaces de decidir si saldrá un gato o un perro.

Fuente: Arte de difusión estable

Más en detalle, la eliminación de ruido, es decir, la transición del paso de tiempo arbitrario t al paso de tiempo t-1, donde el número t es el número entre T0 (la imagen sin ruido) y el número final TMAX (ruido total). de la siguiente manera: la entrada es la imagen en el paso tormenta ty en ese paso de tiempo hay un ruido específico de la imagen. Usando la red neuronal Red en U, se puede predecir una cantidad total de ruido, por lo que parte del ruido total se elimina de la imagen en el paso de tiempo t. De esta forma obtenemos la imagen en el paso de tiempo t-1 donde hay menos ruido.

Matemáticamente, tiene mucho más sentido ejecutar este método T número de veces que tratar de eliminar todo el ruido. Repitiendo este método, poco a poco se irá eliminando el ruido y obtendremos una imagen mucho más “limpia”.

Ya casi llegamos, porque falta la palabra «latente» en nuestra descripción. Es decir, Stable Diffusion es un modelo de difusión latente. El espacio latente es una representación de datos comprimidos que ocurre mediante la codificación de información utilizando bits más pequeños que la representación original. En la práctica, podemos representar un vector de 20 dimensiones usando uno de 10 dimensiones. Esto da como resultado una reducción de datos, pero nos permite mantener solo la mayor parte de la información. importante.

Por qué decimos esto? Porque el proceso de difusión es muy exigente computacionalmente. De hecho, si piensa en una imagen de 512×512 píxeles con tres canales de color, tendrá un vector compuesto por 786.432 tamaño. Para una imagen.

Ser DARLE usa espacios de este tipo, a nivel de píxel (con trucos para hacer los cálculos más rápido), es solo gracias a sus servidores. Pero si tiene que usar la GPU de su computadora, podría llevar años. Aquí es donde el espacios latentesque son 48 veces más pequeños que el espacio de píxeles.

Para entrenar el modelo, se utiliza una técnica llamada codificador variacional automático. (VAE, autocodificador variacional), compuesto por dos elementos, un codificador y un decodificador.

En la práctica, el modelo está entrenado para clasificar imágenes utilizando redes neuronales convolucionales: el codificador aprende a comprimir una imagen en una representación de menor dimensión en el espacio latente, mientras descifrador restaurar la imagen del espacio latente. Durante el entrenamiento, en lugar de generar una imagen ruidoso, se genera un tensor aleatorio en el espacio latente (ruido latente), que corrompe la representación de la imagen en el espacio latente. Esto es muy rápido, porque espacio latente es pequeño, y el VAE puede hacerlo porque una imagen, incluso una de alta dimensión, en realidad está compuesta de relativamente poca información fundamental. Por ejemplo, un gato tiene cuatro patas y cola, una cara tiene dos ojos, una nariz y una boca, con una relación específica. Etcétera.

Fuente: Vega IT


Continuar leyendo: Cómo funciona la difusión estable | mundo inteligente

Salir de la versión móvil