Sobreajuste

Definición breve

El sobreajuste (overfitting) ocurre cuando un modelo de aprendizaje automático aprende demasiado bien los datos de entrenamiento, incluyendo ruido o patrones irrelevantes, lo que reduce su capacidad para generalizar a nuevos datos.

Explicación del concepto

Cuando una red neuronal se entrena con un conjunto de datos, su objetivo es aprender los patrones que permiten hacer predicciones correctas. Sin embargo, si el modelo es demasiado complejo o se entrena durante demasiado tiempo, puede comenzar a memorizar los datos de entrenamiento en lugar de aprender patrones generales.

Este fenómeno se conoce como sobreajuste.

Un modelo con sobreajuste suele mostrar un rendimiento excelente en el conjunto de entrenamiento, pero un rendimiento mucho peor cuando se evalúa con datos nuevos o desconocidos.

Cómo funciona

El sobreajuste ocurre generalmente cuando:

  • el modelo tiene demasiados parámetros
  • el conjunto de entrenamiento es pequeño
  • el entrenamiento se prolonga demasiado
  • el modelo captura ruido en los datos

En estos casos, el modelo se ajusta excesivamente a las particularidades del conjunto de entrenamiento.

Por qué es importante

Evitar el sobreajuste es fundamental para construir modelos que funcionen bien en situaciones reales.

Un modelo que memoriza los datos de entrenamiento puede parecer preciso durante el entrenamiento, pero fallará cuando se enfrente a nuevos datos.

Por esta razón, muchas técnicas de entrenamiento están diseñadas específicamente para reducir el sobreajuste.

Ejemplo conceptual

Imaginemos un modelo que intenta reconocer imágenes de gatos y perros.

Si el modelo memoriza detalles específicos del conjunto de entrenamiento —como el fondo o la iluminación— puede tener dificultades para clasificar nuevas imágenes que presenten condiciones diferentes.

Ejemplo en PyTorch

El sobreajuste puede detectarse comparando el rendimiento del modelo en el conjunto de entrenamiento y en el conjunto de validación.

Python
train_loss = 0.05
validation_loss = 0.45

Si la pérdida de entrenamiento es mucho menor que la pérdida de validación, es posible que el modelo esté sufriendo sobreajuste.

Conceptos relacionados

  • Subajuste (Underfitting)
  • Regularización
  • Early Stopping
  • Dropout
  • Dataset de Validación

Resumen

El sobreajuste ocurre cuando un modelo aprende demasiado los datos de entrenamiento y pierde la capacidad de generalizar a nuevos datos. Las técnicas de regularización, validación y control del entrenamiento ayudan a reducir este problema y a mejorar el rendimiento del modelo en aplicaciones reales.