Correlación (Pearson)

Midiendo la relación lineal entre variables de forma normalizada

La correlación de Pearson es una medida que indica la fuerza y dirección de la relación lineal entre dos variables. A diferencia de la covarianza, está normalizada, lo que permite comparar relaciones independientemente de la escala.

👉 Es una de las métricas más utilizadas en análisis de datos, estadística y machine learning.

Definición corta

La correlación de Pearson mide qué tan fuerte y en qué dirección están relacionadas dos variables de forma lineal.

Definición detallada

Dadas dos variables XXX y YYY, la correlación de Pearson se define como:ρ(X,Y)=Cov(X,Y)σXσY\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}

👉 Donde:

  • Cov(X,Y)\text{Cov}(X, Y)Cov(X,Y) = covarianza
  • σX,σY\sigma_X, \sigma_YσX​,σY​ = desviaciones estándar

Rango de valores

1ρ1-1 \leq \rho \leq 1

ValorSignificado
1correlación perfecta positiva
0sin relación lineal
-1correlación perfecta negativa

Intuición

La correlación responde:

👉 “¿Las variables cambian juntas de forma consistente?”

Ejemplos

  • Altura y peso → correlación positiva
  • Temperatura y uso de calefacción → negativa
  • Edad y número de letras en el nombre → ~0

Interpretación geométrica

La correlación de Pearson es equivalente al:

👉 coseno de similitud entre variables centradas


ρ(X,Y)=cos(θ)\rho(X, Y) = \cos(\theta)

👉 Esto conecta directamente con:

  • producto escalar
  • norma
  • coseno de similitud

Relación con covarianza

MétricaCaracterística
Covarianzadepende de escala
Correlaciónnormalizada

👉 La correlación permite comparar relaciones entre variables distintas.

Correlación en redes neuronales

🔹 1. Análisis de features

Detecta:

  • redundancia
  • dependencia

🔹 2. Selección de variables

Eliminar features altamente correlacionadas.

🔹 3. Preprocesamiento

Mejora:

  • eficiencia
  • generalización

🔹 4. Embeddings

Evalúa similitud entre representaciones.

Ejemplo paso a paso

X=[1,2,3]X = [1, 2, 3]Y=[2,4,6]Y = [2, 4, 6]

Covarianza:Cov(X,Y)>0\text{Cov}(X,Y) > 0

Desviaciones estándar:σX,σY>0\sigma_X, \sigma_Y > 0

Resultado:ρ=1\rho = 1

👉 Relación perfecta.

Relación con otros conceptos

Ejemplo en Python

import numpy as np
X = np.array([1, 2, 3])
Y = np.array([2, 4, 6])
corr = np.corrcoef(X, Y)
print("Matriz de correlación:\n", corr)

Ejemplo manual

import numpy as np
X = np.array([1, 2, 3])
Y = np.array([2, 4, 6])
cov = np.cov(X, Y)[0, 1]
std_x = np.std(X)
std_y = np.std(Y)
corr = cov / (std_x * std_y)
print("Correlación:", corr)

Ejemplo en PyTorch

import torch
X = torch.tensor([1.0, 2.0, 3.0])
Y = torch.tensor([2.0, 4.0, 6.0])
X_c = X - X.mean()
Y_c = Y - Y.mean()
corr = torch.dot(X_c, Y_c) / (torch.norm(X_c) * torch.norm(Y_c))
print("Correlación:", corr.item())

Ejemplo en dataset

import numpy as np
data = np.random.rand(100, 3)
corr_matrix = np.corrcoef(data.T)
print("Correlaciones:\n", corr_matrix)

Qué muestra este ejemplo

  • Relaciones entre variables
  • Dependencias ocultas
  • Base para selección de features

Errores comunes

Confundir correlación con causalidad

Correlación ≠ causa.

Ignorar relaciones no lineales

Pearson solo captura linealidad.

No centrar datos

Puede afectar interpretación.

Ejemplo conceptual

Ingresos ↑ → gasto ↑ → correlación positiva  
Temperatura ↑ → calefacción ↓ → correlación negativa

Interpretación profunda

La correlación permite:

  • entender dependencias
  • reducir redundancia
  • analizar estructura de datos
  • mejorar modelos

👉 Es una herramienta esencial en análisis estadístico.

Conclusión

La correlación de Pearson es una medida fundamental para analizar relaciones lineales entre variables. Su normalización la hace especialmente útil para comparar dependencias en datasets complejos.

👉 Entender correlación es clave para entender cómo se relacionan los datos.

Related Concepts

  • Covarianza
  • Varianza
  • Coseno de similitud
  • PCA
  • Norma
  • Distribuciones