El valor central que divide los datos en dos mitades
La mediana es una medida de tendencia central que representa el valor que divide un conjunto de datos ordenados en dos partes iguales.
👉 Es especialmente útil cuando los datos contienen valores extremos (outliers).
Definición corta
La mediana es el valor central de un conjunto de datos ordenado.
Definición matemática
Para un conjunto ordenado de n valores:
🔹 Si es impar
🔹 Si n es par
🧠 Intuición
La mediana responde:
👉 “¿Cuál es el punto medio de los datos?”
Datos ordenados ↓ Valor central ↓ Mediana
📊 Ejemplo simple
Datos: [1, 3, 5, 7, 9] Mediana = 5
Datos: [1, 3, 5, 7] Mediana = (3 + 5) / 2 = 4
🔄 Comparación con la media
| Medida | Sensibilidad a outliers |
|---|---|
| Media | alta |
| Mediana | baja |
👉 la mediana es más robusta.
🧠 Propiedad clave: robustez
La mediana no cambia mucho ante valores extremos.
📊 Ejemplo conceptual
Datos: [1, 2, 3, 1000] Media → muy alta Mediana → estable
🧠 Relación con percentiles
La mediana es:Percentil 50
👉 divide los datos en dos mitades iguales.
📊 Interpretación
50% datos ≤ mediana 50% datos ≥ mediana
🧠 Uso en machine learning
La mediana se utiliza en:
- análisis exploratorio
- detección de outliers
- normalización robusta
- imputación de valores faltantes
📊 Ejemplo conceptual
Datos ruidosos ↓ Mediana ↓ Valor representativo robusto
📊 Ejemplo en Python
import numpy as npdata = np.array([1, 2, 3, 1000])print(np.median(data))
🧠 Qué muestra este ejemplo
- robustez frente a outliers
- valor central real
- estabilidad
⚠️ Errores comunes
Pensar que siempre representa el promedio
No es la media.
No ordenar los datos
Es necesario para calcularla.
Usarla sin contexto
Puede ocultar variabilidad.
📊 Ejemplo conceptual en ML
Datos ↓ Mediana ↓ Centro robusto ↓ Análisis estable
🧠 Interpretación profunda
La mediana refleja un principio clave:
👉 El centro de los datos no siempre es el promedio
Permite:
- resistir valores extremos
- representar mejor distribuciones sesgadas
- mejorar análisis robustos
Conclusión
La mediana es una medida robusta de tendencia central que divide los datos en dos partes iguales, siendo especialmente útil en presencia de outliers.
👉 Es una herramienta esencial para análisis de datos reales.
Related Concepts
- Media
- Percentiles
- Distribución
- Outliers
- Varianza