Midiendo la relación lineal entre variables de forma normalizada
La correlación de Pearson es una medida que indica la fuerza y dirección de la relación lineal entre dos variables. A diferencia de la covarianza, está normalizada, lo que permite comparar relaciones independientemente de la escala.
👉 Es una de las métricas más utilizadas en análisis de datos, estadística y machine learning.
Definición corta
La correlación de Pearson mide qué tan fuerte y en qué dirección están relacionadas dos variables de forma lineal.
Definición detallada
Dadas dos variables X y Y, la correlación de Pearson se define como:
👉 Donde:
- Cov(X,Y) = covarianza
- σX,σY = desviaciones estándar
Rango de valores
| Valor | Significado |
|---|---|
| 1 | correlación perfecta positiva |
| 0 | sin relación lineal |
| -1 | correlación perfecta negativa |
Intuición
La correlación responde:
👉 “¿Las variables cambian juntas de forma consistente?”
Ejemplos
- Altura y peso → correlación positiva
- Temperatura y uso de calefacción → negativa
- Edad y número de letras en el nombre → ~0
Interpretación geométrica
La correlación de Pearson es equivalente al:
👉 coseno de similitud entre variables centradas
👉 Esto conecta directamente con:
- producto escalar
- norma
- coseno de similitud
Relación con covarianza
| Métrica | Característica |
|---|---|
| Covarianza | depende de escala |
| Correlación | normalizada |
👉 La correlación permite comparar relaciones entre variables distintas.
Correlación en redes neuronales
🔹 1. Análisis de features
Detecta:
- redundancia
- dependencia
🔹 2. Selección de variables
Eliminar features altamente correlacionadas.
🔹 3. Preprocesamiento
Mejora:
- eficiencia
- generalización
🔹 4. Embeddings
Evalúa similitud entre representaciones.
Ejemplo paso a paso
Covarianza:
Desviaciones estándar:
Resultado:
👉 Relación perfecta.
Relación con otros conceptos
- Covarianza
- Varianza
- Coseno de similitud
- Norma
- PCA
Ejemplo en Python
import numpy as npX = np.array([1, 2, 3])Y = np.array([2, 4, 6])corr = np.corrcoef(X, Y)print("Matriz de correlación:\n", corr)
Ejemplo manual
import numpy as npX = np.array([1, 2, 3])Y = np.array([2, 4, 6])cov = np.cov(X, Y)[0, 1]std_x = np.std(X)std_y = np.std(Y)corr = cov / (std_x * std_y)print("Correlación:", corr)
Ejemplo en PyTorch
import torchX = torch.tensor([1.0, 2.0, 3.0])Y = torch.tensor([2.0, 4.0, 6.0])X_c = X - X.mean()Y_c = Y - Y.mean()corr = torch.dot(X_c, Y_c) / (torch.norm(X_c) * torch.norm(Y_c))print("Correlación:", corr.item())
Ejemplo en dataset
import numpy as npdata = np.random.rand(100, 3)corr_matrix = np.corrcoef(data.T)print("Correlaciones:\n", corr_matrix)
Qué muestra este ejemplo
- Relaciones entre variables
- Dependencias ocultas
- Base para selección de features
Errores comunes
Confundir correlación con causalidad
Correlación ≠ causa.
Ignorar relaciones no lineales
Pearson solo captura linealidad.
No centrar datos
Puede afectar interpretación.
Ejemplo conceptual
Ingresos ↑ → gasto ↑ → correlación positiva
Temperatura ↑ → calefacción ↓ → correlación negativa
Interpretación profunda
La correlación permite:
- entender dependencias
- reducir redundancia
- analizar estructura de datos
- mejorar modelos
👉 Es una herramienta esencial en análisis estadístico.
Conclusión
La correlación de Pearson es una medida fundamental para analizar relaciones lineales entre variables. Su normalización la hace especialmente útil para comparar dependencias en datasets complejos.
👉 Entender correlación es clave para entender cómo se relacionan los datos.
Related Concepts
- Covarianza
- Varianza
- Coseno de similitud
- PCA
- Norma
- Distribuciones