Covarianza y matriz de covarianza

Cómo medir relaciones entre variables en datos

La covarianza es una medida que indica cómo dos variables cambian juntas. La matriz de covarianza extiende esta idea a múltiples variables, permitiendo analizar relaciones complejas en datasets multidimensionales.

👉 Es la base matemática de técnicas clave como PCA.

Definición corta

  • Covarianza: mide la relación entre dos variables
  • Matriz de covarianza: contiene las covarianzas entre todas las variables

Definición detallada

Dadas dos variables XX y YY:Cov(X,Y)=E[(XμX)(YμY)]\text{Cov}(X, Y) = \mathbb{E}[(X – \mu_X)(Y – \mu_Y)]

👉 Donde:

  • μX\mu_X, μY\mu_Y​ = medias

Interpretación

CovarianzaSignificado
> 0variables crecen juntas
< 0una sube, otra baja
≈ 0sin relación lineal

Intuición

La covarianza responde:

👉 “Cuando una variable cambia, ¿qué hace la otra?”

Ejemplo

  • Altura y peso → covarianza positiva
  • Temperatura y uso de calefacción → negativa

Matriz de covarianza

Para un dataset con múltiples variables:Σ=[Cov(X1,X1)Cov(X1,X2)Cov(X2,X1)Cov(X2,X2)]\Sigma = \begin{bmatrix} \text{Cov}(X_1, X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Cov}(X_2, X_2) \end{bmatrix}

👉 Propiedades:

  • Simétrica
  • Diagonal = varianzas
  • Fuera de la diagonal = relaciones

Ejemplo simple

X=[233547]X = \begin{bmatrix} 2 & 3 \\ 3 & 5 \\ 4 & 7 \end{bmatrix}

Covarianza:Σ=[Var(X1)Cov(X1,X2)Cov(X2,X1)Var(X2)]\Sigma = \begin{bmatrix} \text{Var}(X_1) & \text{Cov}(X_1, X_2) \\ \text{Cov}(X_2, X_1) & \text{Var}(X_2) \end{bmatrix}

Relación con PCA

PCA utiliza la matriz de covarianza:

👉 Sus vectores propios = componentes principales
👉 Sus valores propios = varianza explicada

Covarianza en redes neuronales

🔹 1. Análisis de datos

Detecta:

  • redundancia
  • correlaciones

2. Preprocesamiento

Reduce:

  • features innecesarios
  • ruido

🔹 3. Normalización

Relacionado con:

  • whitening
  • estandarización

🔹 4. Embeddings

Permite entender:

  • estructura interna
  • dependencia entre dimensiones

📊 Ejemplo paso a paso

Datos:X=[1,2,3]X = [1, 2, 3]Y=[2,4,6]Y = [2, 4, 6]Y=[2,4,6]


Media:μX=2,μY=4\mu_X = 2, \quad \mu_Y = 4

Covarianza:Cov(X,Y)=(12)(24)+(22)(44)+(32)(64)3=2+0+23=1.33\text{Cov}(X,Y) = \frac{(1-2)(2-4) + (2-2)(4-4) + (3-2)(6-4)}{3} = \frac{2 + 0 + 2}{3} = 1.33


👉 Positiva → relación directa.

Relación con otros conceptos

  • Varianza
  • Correlación
  • PCA
  • SVD
  • Distribuciones

Ejemplo en Python

import numpy as np
X = np.array([1, 2, 3])
Y = np.array([2, 4, 6])
cov = np.cov(X, Y)
print("Matriz de covarianza:\n", cov)

Ejemplo con múltiples variables

import numpy as np
X = np.array([
[2, 3],
[3, 5],
[4, 7]
])
cov_matrix = np.cov(X.T)
print("Covarianza:\n", cov_matrix)

Ejemplo en PyTorch

import torch
X = torch.tensor([
[2.0, 3.0],
[3.0, 5.0],
[4.0, 7.0]
])
X_centered = X - torch.mean(X, dim=0)
cov_matrix = (X_centered.T @ X_centered) / (X.shape[0] - 1)
print("Matriz de covarianza:\n", cov_matrix)

Ejemplo en PCA

import numpy as np
X = np.random.rand(100, 3)
X_centered = X - np.mean(X, axis=0)
cov = np.cov(X_centered.T)
eigvals, eigvecs = np.linalg.eig(cov)
print("Valores propios:", eigvals)

Qué muestra este ejemplo

  • La covarianza captura relaciones
  • Se usa directamente en PCA
  • Permite identificar direcciones importantes

Errores comunes

No centrar los datos

Produce resultados incorrectos.

Confundir covarianza con correlación

La correlación está normalizada.


Ignorar escala de variables

Afecta la interpretación.

Ejemplo conceptual

Edad vs ingresos → covarianza positiva  
Edad vs uso de videojuegos → covarianza negativa (posible)

Interpretación profunda

La covarianza permite:

  • entender relaciones ocultas
  • descubrir estructura en datos
  • reducir redundancia
  • preparar datos para modelos

👉 Es una herramienta clave para análisis y transformación de datos.

Conclusión

La covarianza y la matriz de covarianza permiten medir relaciones entre variables y entender la estructura interna de los datos. Son fundamentales en técnicas como PCA y en el análisis estadístico de datasets.

👉 Entender la covarianza es entender cómo se relacionan los datos.

Related Concepts