Sobreajuste vs Subajuste: Cómo detectarlos y evitarlos

Introducción

Uno de los desafíos más comunes en el entrenamiento de modelos de aprendizaje automático es encontrar el equilibrio adecuado entre dos problemas opuestos:

👉 Sobreajuste (overfitting)
👉 Subajuste (underfitting)

Ambos afectan directamente el rendimiento de un modelo, pero de formas diferentes:

  • Uno aprende demasiado de los datos
  • El otro aprende demasiado poco

Entender cómo detectarlos y corregirlos es fundamental para construir modelos fiables.

¿Qué es el Sobreajuste?

El sobreajuste ocurre cuando un modelo aprende demasiado bien los datos de entrenamiento, incluyendo ruido y detalles irrelevantes.

Como resultado, el modelo pierde capacidad de generalizar a nuevos datos.

Características:

  • Alta precisión en entrenamiento
  • Bajo rendimiento en datos nuevos
  • Modelo demasiado complejo

Ejemplo:

Un modelo que memoriza ejemplos en lugar de aprender patrones generales.

¿Qué es el Subajuste?

El subajuste ocurre cuando un modelo es demasiado simple para capturar la estructura de los datos.

No logra aprender ni siquiera los patrones básicos.

Características:

  • Bajo rendimiento en entrenamiento
  • Bajo rendimiento en validación
  • Modelo demasiado simple

Ejemplo:

Un modelo lineal intentando resolver un problema no lineal.

Comparación directa

AspectoSobreajusteSubajuste
Complejidad del modeloAltaBaja
Rendimiento en entrenamientoAltoBajo
Rendimiento en validaciónBajoBajo
GeneralizaciónMalaMala
Causa principalExceso de aprendizajeFalta de aprendizaje

Cómo detectarlos

Señales de sobreajuste:

  • Gran diferencia entre entrenamiento y validación
  • Precisión alta en entrenamiento, baja en test
  • Curvas de pérdida divergentes

Señales de subajuste:

  • Bajo rendimiento en todos los datasets
  • El modelo no mejora con más entrenamiento
  • Curvas de pérdida estancadas

¿Cómo evitarlos?

Soluciones para el Sobreajuste

  • Reducir la complejidad del modelo
  • Usar regularización (L1, L2, dropout)
  • Aumentar el tamaño del dataset
  • Early stopping
  • Data augmentation

Soluciones para el Subajuste

  • Usar modelos más complejos
  • Entrenar durante más tiempo
  • Mejorar la calidad de los datos
  • Añadir más características (features)

Insight clave

👉 Sobreajuste = el modelo memoriza
👉 Subajuste = el modelo no entiende

El objetivo es encontrar el punto óptimo entre ambos.

El equilibrio ideal

Este equilibrio se conoce como:

👉 Buena generalización

Un buen modelo:

  • Aprende patrones reales
  • Ignora el ruido
  • Funciona bien en datos nuevos

Curva de aprendizaje (concepto clave)

El comportamiento se puede visualizar así:

  • Sobreajuste → brecha grande entre entrenamiento y validación
  • Subajuste → ambas curvas bajas

👉 Esto es fundamental para diagnosticar problemas

Conceptos relacionados

Conclusión

El sobreajuste y el subajuste representan dos extremos del entrenamiento:

  • Sobreajuste → demasiada complejidad
  • Subajuste → falta de capacidad

El objetivo es encontrar el equilibrio donde el modelo generaliza correctamente.