Cómo los modelos aprenden a mejorar paso a paso
La optimización es el proceso mediante el cual una red neuronal ajusta sus parámetros para reducir el error. Es el puente entre el cálculo (que mide cómo cambiar) y el aprendizaje efectivo (que aplica esos cambios).
Si el cálculo responde a “¿en qué dirección debemos movernos?”, la optimización responde a:
👉 “¿cómo damos esos pasos de forma eficiente y estable?”
🧠 ¿Por qué es crítica la optimización?
Durante el entrenamiento:
- Se define una función de pérdida que mide el error
- Se calcula el gradiente de esa función
- Se ajustan los pesos para minimizar el error
👉 Sin optimización, una red neuronal no puede aprender.
🧩 Conceptos fundamentales
🔹 Función objetivo
La función que queremos optimizar.
👉 En redes neuronales:
- Generalmente es la función de pérdida (loss)
🔹 Función de pérdida
Mide qué tan lejos está el modelo de la respuesta correcta.
Ejemplos:
- Error cuadrático medio (MSE)
- Entropía cruzada
👉 Es el punto de partida del entrenamiento.
🔹 Minimización y maximización
Objetivo del proceso de optimización.
- Minimizar → error
- Maximizar → recompensa (en RL)
📉 Descenso de gradiente: el núcleo del entrenamiento
🔹 Descenso de gradiente
Algoritmo que ajusta los parámetros en dirección opuesta al gradiente.θ=θ−η⋅∇L(θ)
👉 Donde:
- θ = parámetros
- η = tasa de aprendizaje
- ∇L = gradiente
👉 Es el algoritmo base de casi todo deep learning.
🔹 Descenso de gradiente estocástico (SGD)
Utiliza muestras individuales en lugar de todo el dataset.
👉 Ventajas:
- Más rápido
- Introduce ruido útil
🔹 Descenso por mini-lotes
Compromiso entre eficiencia y estabilidad.
👉 Estándar en deep learning moderno.
⚙️ Hiperparámetros clave
🔹 Tasa de aprendizaje
Controla el tamaño del paso en cada actualización.
- Muy alta → inestabilidad
- Muy baja → aprendizaje lento
🔹 Programación de la tasa de aprendizaje
Ajusta dinámicamente la tasa durante el entrenamiento.
Ejemplos:
- Decaimiento (decay)
- Warmup
- Cosine annealing
🚀 Optimizadores avanzados
🔹 Momentum
Acumula gradientes anteriores para acelerar el aprendizaje.
🔹 Nesterov Momentum
Versión mejorada con anticipación del gradiente.
🔹 AdaGrad
Adapta la tasa de aprendizaje por parámetro.
🔹 RMSProp
Corrige limitaciones de AdaGrad.
🔹 Adam
Combina momentum + adaptación de tasa.
👉 Es el optimizador más utilizado.
🧭 Paisaje de optimización
🔹 Superficie de pérdida
Representa el error en función de los parámetros.
🔹 Paisaje de pérdida
Forma global de esa superficie.
👉 Puede ser:
- Suave
- Rugoso
- No convexo
🔹 Óptimo local
Solución mejor en una región, pero no global.
🔹 Óptimo global
Mejor solución posible.
🔹 Punto de silla (Saddle point)
Punto donde el gradiente es cero, pero no es un mínimo.
👉 Problema común en redes profundas.
📐 Propiedades matemáticas
🔹 Convexidad
Una función convexa tiene un único mínimo global.
👉 Las redes neuronales son no convexas.
🔹 Función no convexa
Puede tener múltiples mínimos y puntos de silla.
👉 Hace la optimización más difícil.
🛡️ Regularización y control
🔹 Regularización L1
Promueve sparsity (pesos pequeños o cero).
🔹 Regularización L2
Penaliza pesos grandes.
🔹 Dropout
Desactiva neuronas aleatoriamente durante entrenamiento.
🔹 Early stopping
Detiene el entrenamiento antes de sobreajustar.
🔹 Penalización
Añade términos extra a la función de pérdida.
⚙️ Restricciones y escenarios
🔹 Optimización restringida
Con límites o condiciones.
🔹 Optimización no restringida
Sin restricciones explícitas.
⚠️ Problemas comunes en optimización
🔹 Convergencia lenta
El modelo tarda demasiado en aprender.
🔹 Divergencia
El error aumenta en lugar de disminuir.
🔹 Oscilaciones
El modelo no se estabiliza.
🔹 Mala generalización
El modelo aprende el entrenamiento, pero falla en datos nuevos.
🔗 Conexión con redes neuronales
| Componente | Concepto de optimización |
|---|---|
| Loss | Función objetivo |
| Gradiente | Dirección de ajuste |
| Learning rate | Tamaño del paso |
| Optimizer | Estrategia de actualización |
| Training loop | Proceso iterativo |
🚀 Ruta recomendada dentro de este sub-hub
Para dominar la optimización:
- Función de pérdida
- Gradiente
- Descenso de gradiente
- Tasa de aprendizaje
- SGD y mini-batch
- Adam y optimizadores avanzados
- Regularización
📚 Entradas del diccionario en esta sección
Explora cada concepto en profundidad:
- Función objetivo
- Función de pérdida
- Descenso de gradiente
- Descenso estocástico (SGD)
- Mini-batch gradient descent
- Tasa de aprendizaje
- Learning rate scheduling
- Momentum
- Nesterov
- AdaGrad
- RMSProp
- Adam
- Superficie de pérdida
- Paisaje de pérdida
- Óptimo local
- Óptimo global
- Punto de silla
- Convexidad
- Regularización L1
- Regularización L2
- Dropout
- Early stopping
- Penalización
- Optimización restringida
- Optimización no restringida
✨ Conclusión
La optimización es el proceso que convierte una red neuronal de un modelo aleatorio en un sistema inteligente.
No se trata solo de encontrar un mínimo, sino de encontrarlo:
- Rápidamente
- De forma estable
- Generalizando bien
🧠 Siguiente paso
Después de dominar este sub-hub, continúa con:
👉 Probabilidad y Estadística — donde aprenderás cómo las redes neuronales manejan la incertidumbre y toman decisiones.