Introducción
Uno de los desafíos más comunes en el entrenamiento de modelos de aprendizaje automático es encontrar el equilibrio adecuado entre dos problemas opuestos:
👉 Sobreajuste (overfitting)
👉 Subajuste (underfitting)
Ambos afectan directamente el rendimiento de un modelo, pero de formas diferentes:
- Uno aprende demasiado de los datos
- El otro aprende demasiado poco
Entender cómo detectarlos y corregirlos es fundamental para construir modelos fiables.
¿Qué es el Sobreajuste?
El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo ruido y detalles irrelevantes.
Como resultado, el modelo pierde capacidad de generalizar a nuevos datos.
Características:
- Alta precisión en entrenamiento
- Bajo rendimiento en datos nuevos
- Modelo demasiado complejo
Ejemplo:
Un modelo que memoriza ejemplos en lugar de aprender patrones generales.
¿Qué es el Subajuste?
El subajuste ocurre cuando un modelo es demasiado simple para capturar la estructura de los datos.
No logra aprender ni siquiera los patrones básicos.
Características:
- Bajo rendimiento en entrenamiento
- Bajo rendimiento en validación
- Modelo demasiado simple
Ejemplo:
Un modelo lineal intentando resolver un problema no lineal.
Comparación directa
| Aspecto | Sobreajuste | Subajuste |
|---|---|---|
| Complejidad del modelo | Alta | Baja |
| Rendimiento en entrenamiento | Alto | Bajo |
| Rendimiento en validación | Bajo | Bajo |
| Generalización | Mala | Mala |
| Causa principal | Exceso de aprendizaje | Falta de aprendizaje |
Cómo detectarlos
Señales de sobreajuste:
- Gran diferencia entre entrenamiento y validación
- Precisión alta en entrenamiento, baja en test
- Curvas de pérdida divergentes
Señales de subajuste:
- Bajo rendimiento en todos los datasets
- El modelo no mejora con más entrenamiento
- Curvas de pérdida estancadas
¿Cómo evitarlos?
Soluciones para el Sobreajuste
- Reducir la complejidad del modelo
- Usar regularización (L1, L2, dropout)
- Aumentar el tamaño del dataset
- Early stopping
- Data augmentation
Soluciones para el Subajuste
- Usar modelos más complejos
- Entrenar durante más tiempo
- Mejorar la calidad de los datos
- Añadir más características (features)
Insight clave
👉 Sobreajuste = el modelo memoriza
👉 Subajuste = el modelo no entiende
El objetivo es encontrar el punto óptimo entre ambos.
El equilibrio ideal
Este equilibrio se conoce como:
👉 Buena generalización
Un buen modelo:
- Aprende patrones reales
- Ignora el ruido
- Funciona bien en datos nuevos
Curva de aprendizaje (concepto clave)
El comportamiento se puede visualizar así:
- Sobreajuste → brecha grande entre entrenamiento y validación
- Subajuste → ambas curvas bajas
👉 Esto es fundamental para diagnosticar problemas
Conceptos relacionados
- Generalización
- Regularización
- Convergencia
- Evaluación de modelos
Conclusión
El sobreajuste y el subajuste representan dos extremos del entrenamiento:
- Sobreajuste → demasiada complejidad
- Subajuste → falta de capacidad
El objetivo es encontrar el equilibrio donde el modelo generaliza correctamente.