Información mutua

Cuánta información comparten dos variables

La información mutua (Mutual Information, MI) mide cuánta información comparten dos variables aleatorias, es decir, cuánto saber una variable reduce la incertidumbre sobre la otra.

👉 Es una medida fundamental para detectar dependencias entre variables.


Definición corta

La información mutua cuantifica cuánto conocimiento sobre una variable reduce la incertidumbre de otra.


📐 Definición matemática

I(X;Y)=x,yP(x,y)logP(x,y)P(x)P(y)I(X;Y)=\sum_{x,y} P(x,y)\log\frac{P(x,y)}{P(x)P(y)}I(X;Y)=∑x,y​P(x,y)logP(x)P(y)P(x,y)​


Para variables continuas:I(X;Y)=P(x,y)logP(x,y)P(x)P(y)dxdyI(X;Y)=\int\int P(x,y)\log\frac{P(x,y)}{P(x)P(y)}\,dx\,dyI(X;Y)=∫∫P(x,y)logP(x)P(y)P(x,y)​dxdy


🧠 Intuición

La información mutua responde:

👉 “¿Cuánto me dice XXX sobre YYY?”


X conocido ↓ Reduce incertidumbre sobre Y ↓ Información mutua

📊 Interpretación

  • I(X;Y)=0I(X;Y) = 0I(X;Y)=0 → variables independientes
  • I(X;Y)>0I(X;Y) > 0I(X;Y)>0 → variables relacionadas

👉 siempre es ≥ 0.


🧠 Relación con independencia

Si:P(x,y)=P(x)P(y)P(x,y) = P(x)P(y)P(x,y)=P(x)P(y)


👉 entonces:I(X;Y)=0I(X;Y) = 0I(X;Y)=0


📊 Ejemplo conceptual

Variables independientes ↓ Sin información compartida ↓ MI = 0

🧠 Relación con entropía

I(X;Y)=H(X)H(XY)I(X;Y) = H(X) – H(X|Y)I(X;Y)=H(X)−H(X∣Y)


👉 reducción de incertidumbre.


También:I(X;Y)=H(X)+H(Y)H(X,Y)I(X;Y)=H(X)+H(Y)-H(X,Y)I(X;Y)=H(X)+H(Y)−H(X,Y)


📊 Interpretación

Incertidumbre inicial ↓ Condicionar en Y ↓ Incertidumbre menor

🧠 Interpretación en términos de KL

I(X;Y)=DKL(P(x,y)P(x)P(y))I(X;Y)=D_{KL}(P(x,y)\parallel P(x)P(y))I(X;Y)=DKL​(P(x,y)∥P(x)P(y))


👉 mide desviación de independencia.


📊 Ejemplo conceptual

Dependencia fuerte ↓ Gran diferencia ↓ Alta MI

🧠 Propiedades clave

  • simétrica:

I(X;Y)=I(Y;X)I(X;Y) = I(Y;X)I(X;Y)=I(Y;X)


  • no negativa
  • cero si independencia

🧠 Uso en machine learning

La información mutua se usa en:

  • selección de características
  • reducción de dimensionalidad
  • modelos generativos
  • aprendizaje no supervisado

📊 Ejemplo conceptual

Features ↓ MI con target ↓ Seleccionar las más relevantes

🧠 Ejemplo práctico

  • palabra → categoría
  • pixel → etiqueta
  • señal → ruido

📊 Ejemplo conceptual

Variable X ↓ Contiene información sobre Y ↓ MI alta

📊 Ejemplo en Python

Qué muestra este ejemplo

  • dependencia entre variables
  • medida cuantitativa
  • relación no lineal

⚠️ Errores comunes

Confundir con correlación

MI detecta relaciones no lineales.


Pensar que implica causalidad

Solo mide dependencia.


Ignorar escala

No tiene límite superior fijo.


📊 Ejemplo conceptual en ML

Datos ↓ Relaciones ocultas ↓ Información mutua ↓ Mejor modelo

🧠 Interpretación profunda

La información mutua refleja un principio clave:

👉 Aprender es descubrir dependencias entre variables

Permite:

  • detectar relaciones complejas
  • reducir incertidumbre
  • mejorar modelos

Conclusión

La información mutua mide cuánta información comparten dos variables, siendo clave para entender dependencias y mejorar modelos en machine learning.

👉 Es una de las herramientas más poderosas en teoría de la información.


Related Concepts

  • Entropía
  • Divergencia KL
  • Distribución conjunta
  • Independencia
  • Feature selection