Definición breve
El momentum es una técnica de optimización que acelera el entrenamiento al acumular gradientes pasados, permitiendo que el modelo avance más rápido en direcciones consistentes.
Definición detallada
En el descenso de gradiente estándar, cada actualización depende únicamente del gradiente actual.
El momentum introduce un concepto adicional:
👉 memoria del movimiento anterior
En lugar de actualizar los parámetros solo con el gradiente actual, el modelo también considera:
- Gradientes previos
- Dirección acumulada del aprendizaje
Esto produce actualizaciones más suaves y rápidas.
Intuición conceptual
Imagina una bola rodando por una superficie:
- Sin momentum → se detiene o cambia dirección fácilmente
- Con momentum → mantiene velocidad y dirección
👉 El entrenamiento se vuelve más fluido y eficiente
Sin momentum vs con momentum
| Aspecto | Sin Momentum | Con Momentum |
|---|---|---|
| Velocidad | Baja | Alta |
| Oscilaciones | Altas | Reducidas |
| Estabilidad | Media | Alta |
| Convergencia | Lenta | Más rápida |
¿Cómo funciona?
El momentum acumula una “velocidad” basada en gradientes anteriores:
- Se mantiene una media ponderada de gradientes
- Se usa para actualizar los parámetros
👉 Resultado: pasos más consistentes en la misma dirección
Beneficios principales
🔹 Aceleración del aprendizaje
- Avanza más rápido en direcciones útiles
🔹 Reducción de oscilaciones
- Especialmente en superficies irregulares
🔹 Mejor convergencia
- Evita zig-zag en el espacio de parámetros
Posibles desventajas
🔹 Exceso de momentum
- Puede provocar sobrepasar el mínimo
🔹 Ajuste necesario
- Requiere elegir un valor adecuado (ej. 0.9)
Ejemplo en PyTorch
import torchimport torch.nn as nnimport torch.optim as optimmodel = nn.Linear(1, 1)optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)
👉 Aquí el optimizador acumula gradientes anteriores para acelerar el entrenamiento.
Impacto en la convergencia
Con momentum:
- Menos oscilaciones
- Mayor velocidad de convergencia
- Trayectoria más estable
Sin momentum:
- Movimiento errático
- Más lento
Insight clave
👉 Momentum = memoria del gradiente
Relación con otros conceptos
Este concepto se conecta con:
Conclusión
El momentum es una mejora clave en optimización porque:
- Acelera el aprendizaje
- Reduce inestabilidad
- Mejora la convergencia
Es una técnica fundamental en deep learning moderno.