Información mutua

Cuánta información comparten dos variables

La información mutua (Mutual Information, MI) mide cuánta información comparten dos variables aleatorias, es decir, cuánto saber una variable reduce la incertidumbre sobre la otra.

👉 Es una medida fundamental para detectar dependencias entre variables.

Definición corta

La información mutua cuantifica cuánto conocimiento sobre una variable reduce la incertidumbre de otra.

📐 Definición matemática

$I(X;Y)=\sum_{x,y} P(x,y)\log\frac{P(x,y)}{P(x)P(y)}$ I(X;Y)=∑x,yP(x,y)logP(x)P(y)P(x,y)

Para variables continuas: $I(X;Y)=\int\int P(x,y)\log\frac{P(x,y)}{P(x)P(y)}\,dx\,dy$ I(X;Y)=∫∫P(x,y)logP(x)P(y)P(x,y)dxdy

🧠 Intuición

La información mutua responde:

👉 “¿Cuánto me dice $X$ X sobre $Y$ Y?”

X conocido  ↓  Reduce incertidumbre sobre Y  ↓  Información mutua

📊 Interpretación

$I(X;Y) = 0$ I(X;Y)=0 → variables independientes
$I(X;Y) > 0$ I(X;Y)>0 → variables relacionadas

👉 siempre es ≥ 0.

🧠 Relación con independencia

Si: $P(x,y) = P(x)P(y)$ P(x,y)=P(x)P(y)

👉 entonces: $I(X;Y) = 0$ I(X;Y)=0

📊 Ejemplo conceptual

Variables independientes  ↓  Sin información compartida  ↓  MI = 0

🧠 Relación con entropía

$I(X;Y) = H(X) – H(X|Y)$ I(X;Y)=H(X)−H(X∣Y)

👉 reducción de incertidumbre.

También: $I(X;Y)=H(X)+H(Y)-H(X,Y)$ I(X;Y)=H(X)+H(Y)−H(X,Y)

📊 Interpretación

Incertidumbre inicial  ↓  Condicionar en Y  ↓  Incertidumbre menor

🧠 Interpretación en términos de KL

$I(X;Y)=D_{KL}(P(x,y)\parallel P(x)P(y))$ I(X;Y)=DKL(P(x,y)∥P(x)P(y))

👉 mide desviación de independencia.

📊 Ejemplo conceptual

Dependencia fuerte  ↓  Gran diferencia  ↓  Alta MI

🧠 Propiedades clave

simétrica:

$I(X;Y) = I(Y;X)$ I(X;Y)=I(Y;X)

no negativa
cero si independencia

🧠 Uso en machine learning

La información mutua se usa en:

selección de características
reducción de dimensionalidad
modelos generativos
aprendizaje no supervisado

📊 Ejemplo conceptual

Features  ↓  MI con target  ↓  Seleccionar las más relevantes

🧠 Ejemplo práctico

palabra → categoría
pixel → etiqueta
señal → ruido

📊 Ejemplo conceptual

Variable X  ↓  Contiene información sobre Y  ↓  MI alta

📊 Ejemplo en Python

Qué muestra este ejemplo

dependencia entre variables
medida cuantitativa
relación no lineal

⚠️ Errores comunes

Confundir con correlación

MI detecta relaciones no lineales.

Pensar que implica causalidad

Solo mide dependencia.

Ignorar escala

No tiene límite superior fijo.

📊 Ejemplo conceptual en ML

Datos  ↓  Relaciones ocultas  ↓  Información mutua  ↓  Mejor modelo

🧠 Interpretación profunda

La información mutua refleja un principio clave:

👉 Aprender es descubrir dependencias entre variables

Permite:

detectar relaciones complejas
reducir incertidumbre
mejorar modelos

Conclusión

La información mutua mide cuánta información comparten dos variables, siendo clave para entender dependencias y mejorar modelos en machine learning.

👉 Es una de las herramientas más poderosas en teoría de la información.

Related Concepts

Entropía
Divergencia KL
Distribución conjunta
Independencia
Feature selection