Midiendo cuánto se dispersan los datos alrededor de la media
La desviación estándar es una medida que cuantifica cuánto se alejan los valores de un conjunto de datos respecto a su media.
👉 Es una de las métricas más importantes para entender la variabilidad de los datos.
Definición corta
La desviación estándar mide la dispersión promedio de los datos respecto a la media.
📐 Definición matemática
👉 donde:
- : media
- : valores individuales
- : número de datos
🧠 Intuición
La desviación estándar responde:
👉 “¿Qué tan lejos están los datos del promedio?”
Datos cerca de la media → σ pequeño Datos dispersos → σ grande
📊 Ejemplo simple
Datos: [5, 5, 5, 5] → σ = 0 Datos: [1, 5, 9] → σ grande
🔄 Relación con varianza
σ=Var(X)
👉 la desviación estándar es la raíz de la varianza.
📊 Interpretación
Varianza → unidades cuadradas Desviación estándar → mismas unidades que los datos
🧠 Propiedades clave
- siempre ≥ 0
- igual a 0 si todos los valores son iguales
- sensible a outliers
📊 Ejemplo conceptual
Valores extremos ↓ σ aumenta significativamente
🧠 Relación con distribución normal
- controla el ancho de la curva
- define dispersión
📊 Ejemplo conceptual
σ pequeño → curva estrecha σ grande → curva ancha
🧠 Regla empírica
En distribución normal:
- 68% → ±1σ
- 95% → ±2σ
- 99.7% → ±3σ
📊 Interpretación
Mayor σ ↓ Más dispersión ↓ Más incertidumbre
🧠 Uso en machine learning
La desviación estándar se usa en:
- normalización (standardization)
- análisis de datos
- detección de outliers
- evaluación de modelos
📊 Ejemplo conceptual
Datos ↓ Media + desviación estándar ↓ Escalado
📊 Ejemplo en Python
import numpy as npdata = np.array([1, 2, 3, 4, 5])print(np.std(data))
Ejemplo en PyTorch
import torchdata = torch.tensor([1., 2., 3., 4., 5.])print(torch.std(data))
🧠 Qué muestra este ejemplo
- dispersión real
- cálculo directo
- interpretación práctica
⚠️ Errores comunes
Confundir con varianza
Son diferentes.
Ignorar outliers
Afectan mucho el resultado.
Usarla sin contexto
Debe acompañarse con la media.
📊 Ejemplo conceptual en ML
Datos ↓ Media ↓ Desviación estándar ↓ Modelo
🧠 Interpretación profunda
La desviación estándar refleja un principio clave:
👉 No solo importa el promedio, sino cómo se distribuyen los datos alrededor de él
Permite:
- entender variabilidad
- comparar datasets
- mejorar modelos
Conclusión
La desviación estándar mide la dispersión de los datos respecto a la media, siendo esencial para entender variabilidad y estructura en los datos.
👉 Es una de las métricas más importantes en estadística y machine learning.
Related Concepts
- Media
- Varianza
- Distribución normal
- Outliers
- Normalización