Correlación (Pearson)

Midiendo la relación lineal entre variables de forma normalizada

La correlación de Pearson es una medida que indica la fuerza y dirección de la relación lineal entre dos variables. A diferencia de la covarianza, está normalizada, lo que permite comparar relaciones independientemente de la escala.

👉 Es una de las métricas más utilizadas en análisis de datos, estadística y machine learning.

Definición corta

La correlación de Pearson mide qué tan fuerte y en qué dirección están relacionadas dos variables de forma lineal.

Definición detallada

Dadas dos variables $X$ X y $Y$ Y, la correlación de Pearson se define como: $\rho(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$

👉 Donde:

$\text{Cov}(X, Y)$ Cov(X,Y) = covarianza
$\sigma_X, \sigma_Y$ σX,σY = desviaciones estándar

Rango de valores

$-1 \leq \rho \leq 1$

Valor	Significado
1	correlación perfecta positiva
0	sin relación lineal
-1	correlación perfecta negativa

Intuición

La correlación responde:

👉 “¿Las variables cambian juntas de forma consistente?”

Ejemplos

Altura y peso → correlación positiva
Temperatura y uso de calefacción → negativa
Edad y número de letras en el nombre → ~0

Interpretación geométrica

La correlación de Pearson es equivalente al:

👉 coseno de similitud entre variables centradas

$\rho(X, Y) = \cos(\theta)$

👉 Esto conecta directamente con:

producto escalar
norma
coseno de similitud

Relación con covarianza

Métrica	Característica
Covarianza	depende de escala
Correlación	normalizada

👉 La correlación permite comparar relaciones entre variables distintas.

Correlación en redes neuronales

🔹 1. Análisis de features

Detecta:

redundancia
dependencia

🔹 2. Selección de variables

Eliminar features altamente correlacionadas.

🔹 3. Preprocesamiento

Mejora:

eficiencia
generalización

🔹 4. Embeddings

Evalúa similitud entre representaciones.

Ejemplo paso a paso

$X = [1, 2, 3]$ $Y = [2, 4, 6]$

Covarianza: $\text{Cov}(X,Y) > 0$

Desviaciones estándar: $\sigma_X, \sigma_Y > 0$

Resultado: $\rho = 1$

👉 Relación perfecta.

Relación con otros conceptos

Ejemplo en Python

			
import numpy as np
X = np.array([1, 2, 3])
Y = np.array([2, 4, 6])
corr = np.corrcoef(X, Y)
print("Matriz de correlación:\n", corr)

		

Ejemplo manual

			
import numpy as np
X = np.array([1, 2, 3])
Y = np.array([2, 4, 6])
cov = np.cov(X, Y)[0, 1]
std_x = np.std(X)
std_y = np.std(Y)
corr = cov / (std_x * std_y)
print("Correlación:", corr)

		

Ejemplo en PyTorch

			
import torch
X = torch.tensor([1.0, 2.0, 3.0])
Y = torch.tensor([2.0, 4.0, 6.0])
X_c = X - X.mean()
Y_c = Y - Y.mean()
corr = torch.dot(X_c, Y_c) / (torch.norm(X_c) * torch.norm(Y_c))
print("Correlación:", corr.item())

		

Ejemplo en dataset

			
import numpy as np
data = np.random.rand(100, 3)
corr_matrix = np.corrcoef(data.T)
print("Correlaciones:\n", corr_matrix)

Qué muestra este ejemplo

Relaciones entre variables
Dependencias ocultas
Base para selección de features

Errores comunes

Confundir correlación con causalidad

Correlación ≠ causa.

Ignorar relaciones no lineales

Pearson solo captura linealidad.

No centrar datos

Puede afectar interpretación.

Ejemplo conceptual

Ingresos ↑ → gasto ↑ → correlación positiva  
Temperatura ↑ → calefacción ↓ → correlación negativa

Interpretación profunda

La correlación permite:

entender dependencias
reducir redundancia
analizar estructura de datos
mejorar modelos

👉 Es una herramienta esencial en análisis estadístico.

Conclusión

La correlación de Pearson es una medida fundamental para analizar relaciones lineales entre variables. Su normalización la hace especialmente útil para comparar dependencias en datasets complejos.

👉 Entender correlación es clave para entender cómo se relacionan los datos.

Related Concepts

Covarianza
Varianza
Coseno de similitud
PCA
Norma
Distribuciones