Definición breve
El problema de gradientes desvanecientes ocurre cuando los gradientes se vuelven extremadamente pequeños durante el entrenamiento de redes profundas.
Explicación del concepto
Cuando los gradientes se reducen demasiado al propagarse hacia atrás a través de muchas capas, las capas iniciales dejan de aprender.
Cómo funciona
Esto ocurre principalmente en redes profundas con funciones de activación saturadas.
Por qué es importante
Este problema limitó el desarrollo temprano de redes profundas.
Ejemplo conceptual
Las primeras capas de la red dejan de actualizarse porque los gradientes se vuelven demasiado pequeños.
Ejemplo en PyTorch
Python
import torchimport torch.nn.functional as Fx = torch.tensor([-10.0], requires_grad=True)y = torch.sigmoid(x)y.backward()print(x.grad)
Conceptos relacionados
- Retropropagación
- Inicialización de pesos
- Residual Networks
Resumen
El problema de gradientes desvanecientes puede dificultar el entrenamiento de redes neuronales profundas.