Gradientes Desvanecientes

Definición breve

El problema de gradientes desvanecientes ocurre cuando los gradientes se vuelven extremadamente pequeños durante el entrenamiento de redes profundas.

Explicación del concepto

Cuando los gradientes se reducen demasiado al propagarse hacia atrás a través de muchas capas, las capas iniciales dejan de aprender.

Cómo funciona

Esto ocurre principalmente en redes profundas con funciones de activación saturadas.

Por qué es importante

Este problema limitó el desarrollo temprano de redes profundas.

Ejemplo conceptual

Las primeras capas de la red dejan de actualizarse porque los gradientes se vuelven demasiado pequeños.

Ejemplo en PyTorch

Python
import torch
import torch.nn.functional as F
x = torch.tensor([-10.0], requires_grad=True)
y = torch.sigmoid(x)
y.backward()
print(x.grad)

Conceptos relacionados

Resumen

El problema de gradientes desvanecientes puede dificultar el entrenamiento de redes neuronales profundas.