Midiendo la diferencia entre dos distribuciones
La divergencia KL mide cuánto se diferencia una distribución de probabilidad Q de otra distribución de referencia P.
👉 Es una herramienta fundamental para comparar distribuciones en machine learning, inferencia y modelos probabilísticos.
Definición corta
La divergencia KL cuantifica cuánta información se pierde al usar Q para aproximar P.
📐 Definición matemática
Para variables continuas:
🧠 Intuición
La divergencia KL responde:
👉 “¿Cuánto peor es usar Q en lugar de P?”
Distribución real (P) ↓ Distribución aproximada (Q) ↓ Diferencia → KL
📊 Interpretación
- DKL=0 → distribuciones iguales
- DKL>0 → diferencia creciente
👉 nunca es negativa.
⚠️ Importante: no es simétrica
DKL(P∥Q)=DKL(Q∥P)
👉 el orden importa.
📊 Ejemplo conceptual
P → distribución real Q → modelo ↓ KL mide error
🧠 Interpretación en términos de información
👉 mide la “sorpresa” al usar Q.
📊 Ejemplo conceptual
Evento probable en P ↓ Improbable en Q ↓ Alta penalización
🧠 Uso en machine learning
La divergencia KL se usa en:
- modelos generativos
- variational inference
- VAEs
- regularización
- comparación de distribuciones
📊 Ejemplo conceptual
Datos reales ↓ Modelo ↓ Distribución estimada ↓ KL → diferencia
🧠 Relación con entropía
👉 conecta con entropía y cross-entropy.
🧠 Relación con pérdida
Minimizar KL ≈ mejorar el modelo.
Modelo mejor ↓ KL más pequeño
📊 Ejemplo en Python
import numpy as npP = np.array([0.6, 0.4])Q = np.array([0.5, 0.5])kl = np.sum(P * np.log(P / Q))print(kl)
Ejemplo en PyTorch
import torchimport torch.nn.functional as FP = torch.tensor([0.6, 0.4])Q = torch.tensor([0.5, 0.5])kl = torch.sum(P * torch.log(P / Q))print(kl)
🧠 Qué muestra este ejemplo
- comparación de distribuciones
- cálculo directo
- diferencia cuantificada
⚠️ Errores comunes
Pensar que es distancia
No es métrica (no simétrica).
Ignorar ceros en Q
Puede causar infinito.
Confundir con error simple
Es una medida informacional.
📊 Ejemplo conceptual en ML
Distribución real ↓ Distribución modelo ↓ KL divergence ↓ Optimización
🧠 Interpretación profunda
La divergencia KL refleja un principio clave:
👉 Aprender es aproximar distribuciones
Permite:
- medir calidad de modelos
- optimizar probabilidades
- entender información
Conclusión
La divergencia KL mide la diferencia entre distribuciones y es fundamental para entrenamiento y evaluación de modelos probabilísticos.
👉 Es una de las métricas más importantes en machine learning moderno.
Related Concepts
- Entropía
- Cross-entropy
- Distribución de probabilidad
- Inferencia
- VAEs