Definición breve
El descenso de gradiente estocástico (SGD) es un algoritmo de optimización que actualiza los parámetros del modelo utilizando pequeñas muestras de datos.
Explicación del concepto
En lugar de calcular gradientes utilizando todo el conjunto de datos, SGD utiliza mini-batches.
Esto permite entrenar modelos de manera más eficiente.
Cómo funciona
Cada mini-batch produce una actualización de los parámetros.
Esto genera un proceso de optimización más rápido pero más ruidoso.
Por qué es importante
SGD permite entrenar redes neuronales en grandes conjuntos de datos.
Ejemplo conceptual
En un conjunto de datos de millones de ejemplos, el modelo puede actualizar sus parámetros utilizando grupos pequeños de datos.
Ejemplo en PyTorch
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)
Conceptos relacionados
- Descenso de gradiente
- Mini-batch training
- Optimización
Resumen
SGD es uno de los métodos de optimización más utilizados en el aprendizaje profundo.