Generación guiada por difusión

Definición breve

La generación guiada por difusión es una técnica en modelos de difusión que permite controlar el proceso de generación de datos (como imágenes) mediante condiciones o señales externas.

Explicación del concepto

Los modelos de difusión generan datos eliminando ruido progresivamente a partir de una señal aleatoria.

La generación guiada introduce información adicional durante este proceso para dirigir el resultado final.

Esta guía puede ser:

  • texto (prompts)
  • etiquetas
  • imágenes
  • embeddings

Esto permite generar resultados más precisos y controlados.

Cómo funciona

El proceso incluye:

  1. Inicio con ruido
    Se parte de una señal aleatoria.
  2. Proceso de difusión inversa
    Se elimina el ruido paso a paso.
  3. Aplicación de guía
    Se introduce información externa en cada paso.
  4. Generación final
    Se obtiene una salida coherente con la guía.

Representación conceptual

xt1=f(xt,c)x_{t-1} = f(x_t, c)

Donde:

  • xtx_txt​ es el estado con ruido
  • ccc es la condición (guía)

Tipos de guía

1. Clasificador (Classifier Guidance)

Usa un modelo adicional para guiar la generación.

2. Sin clasificador (Classifier-Free Guidance)

Integra la guía directamente en el modelo.

3. Guía por texto

Uso de prompts para generar contenido.

Por qué es importante

La generación guiada permite:

  • controlar resultados generativos
  • mejorar calidad de salida
  • personalizar contenido
  • reducir aleatoriedad

Aplicaciones

  • generación de imágenes
  • creación de arte digital
  • edición de imágenes
  • generación de contenido multimedia

Ejemplo conceptual

Un modelo genera una imagen a partir de ruido siguiendo la instrucción: “un paisaje futurista al atardecer”.

Ejemplo en PyTorch (conceptual)

for t in reversed(range(T)):
x = denoise(x, condition=prompt_embedding)

Conceptos relacionados

Resumen

La generación guiada por difusión permite controlar el proceso de generación en modelos de difusión mediante información externa. Es una técnica clave en la creación de contenido visual y en sistemas generativos modernos.