Optimización en Redes Neuronales

Cómo los modelos aprenden a mejorar paso a paso

La optimización es el proceso mediante el cual una red neuronal ajusta sus parámetros para reducir el error. Es el puente entre el cálculo (que mide cómo cambiar) y el aprendizaje efectivo (que aplica esos cambios).

Si el cálculo responde a “¿en qué dirección debemos movernos?”, la optimización responde a:
👉 “¿cómo damos esos pasos de forma eficiente y estable?”

🧠 ¿Por qué es crítica la optimización?

Durante el entrenamiento:

Se define una función de pérdida que mide el error
Se calcula el gradiente de esa función
Se ajustan los pesos para minimizar el error

👉 Sin optimización, una red neuronal no puede aprender.

🧩 Conceptos fundamentales

🔹 Función objetivo

La función que queremos optimizar.

👉 En redes neuronales:

Generalmente es la función de pérdida (loss)

🔹 Función de pérdida

Mide qué tan lejos está el modelo de la respuesta correcta.

Ejemplos:

Error cuadrático medio (MSE)
Entropía cruzada

👉 Es el punto de partida del entrenamiento.

🔹 Minimización y maximización

Objetivo del proceso de optimización.

Minimizar → error
Maximizar → recompensa (en RL)

📉 Descenso de gradiente: el núcleo del entrenamiento

🔹 Descenso de gradiente

Algoritmo que ajusta los parámetros en dirección opuesta al gradiente. $\theta = \theta – \eta \cdot \nabla L(\theta)$ θ=θ−η⋅∇L(θ)

👉 Donde:

$\theta$ θ = parámetros
$\eta$ η = tasa de aprendizaje
$\nabla L$ ∇L = gradiente

👉 Es el algoritmo base de casi todo deep learning.

🔹 Descenso de gradiente estocástico (SGD)

Utiliza muestras individuales en lugar de todo el dataset.

👉 Ventajas:

Más rápido
Introduce ruido útil

🔹 Descenso por mini-lotes

Compromiso entre eficiencia y estabilidad.

👉 Estándar en deep learning moderno.

⚙️ Hiperparámetros clave

🔹 Tasa de aprendizaje

Controla el tamaño del paso en cada actualización.

Muy alta → inestabilidad
Muy baja → aprendizaje lento

🔹 Programación de la tasa de aprendizaje

Ajusta dinámicamente la tasa durante el entrenamiento.

Ejemplos:

Decaimiento (decay)
Warmup
Cosine annealing

🚀 Optimizadores avanzados

🔹 Momentum

Acumula gradientes anteriores para acelerar el aprendizaje.

🔹 Nesterov Momentum

Versión mejorada con anticipación del gradiente.

🔹 AdaGrad

Adapta la tasa de aprendizaje por parámetro.

🔹 RMSProp

Corrige limitaciones de AdaGrad.

🔹 Adam

Combina momentum + adaptación de tasa.

👉 Es el optimizador más utilizado.

🧭 Paisaje de optimización

🔹 Superficie de pérdida

Representa el error en función de los parámetros.

🔹 Paisaje de pérdida

Forma global de esa superficie.

👉 Puede ser:

Suave
Rugoso
No convexo

🔹 Óptimo local

Solución mejor en una región, pero no global.

🔹 Óptimo global

Mejor solución posible.

🔹 Punto de silla (Saddle point)

Punto donde el gradiente es cero, pero no es un mínimo.

👉 Problema común en redes profundas.

📐 Propiedades matemáticas

🔹 Convexidad

Una función convexa tiene un único mínimo global.

👉 Las redes neuronales son no convexas.

🔹 Función no convexa

Puede tener múltiples mínimos y puntos de silla.

👉 Hace la optimización más difícil.

🛡️ Regularización y control

🔹 Regularización L1

Promueve sparsity (pesos pequeños o cero).

🔹 Regularización L2

Penaliza pesos grandes.

🔹 Dropout

Desactiva neuronas aleatoriamente durante entrenamiento.

🔹 Early stopping

Detiene el entrenamiento antes de sobreajustar.

🔹 Penalización

Añade términos extra a la función de pérdida.

⚙️ Restricciones y escenarios

🔹 Optimización restringida

Con límites o condiciones.

🔹 Optimización no restringida

Sin restricciones explícitas.

⚠️ Problemas comunes en optimización

🔹 Convergencia lenta

El modelo tarda demasiado en aprender.

🔹 Divergencia

El error aumenta en lugar de disminuir.

🔹 Oscilaciones

El modelo no se estabiliza.

🔹 Mala generalización

El modelo aprende el entrenamiento, pero falla en datos nuevos.

🔗 Conexión con redes neuronales

Componente	Concepto de optimización
Loss	Función objetivo
Gradiente	Dirección de ajuste
Learning rate	Tamaño del paso
Optimizer	Estrategia de actualización
Training loop	Proceso iterativo

🚀 Ruta recomendada dentro de este sub-hub

Para dominar la optimización:

Función de pérdida
Gradiente
Descenso de gradiente
Tasa de aprendizaje
SGD y mini-batch
Adam y optimizadores avanzados
Regularización

📚 Entradas del diccionario en esta sección

Explora cada concepto en profundidad:

Función objetivo
Función de pérdida
Descenso de gradiente
Descenso estocástico (SGD)
Mini-batch gradient descent
Tasa de aprendizaje
Learning rate scheduling
Momentum
Nesterov
AdaGrad
RMSProp
Adam
Superficie de pérdida
Paisaje de pérdida
Óptimo local
Óptimo global
Punto de silla
Convexidad
Regularización L1
Regularización L2
Dropout
Early stopping
Penalización
Optimización restringida
Optimización no restringida

✨ Conclusión

La optimización es el proceso que convierte una red neuronal de un modelo aleatorio en un sistema inteligente.

No se trata solo de encontrar un mínimo, sino de encontrarlo:

Rápidamente
De forma estable
Generalizando bien

🧠 Siguiente paso

Después de dominar este sub-hub, continúa con:

👉 Probabilidad y Estadística — donde aprenderás cómo las redes neuronales manejan la incertidumbre y toman decisiones.