SGD

Definición breve

El descenso de gradiente estocástico (SGD) es un algoritmo de optimización que actualiza los parámetros del modelo utilizando pequeñas muestras de datos.

Explicación del concepto

En lugar de calcular gradientes utilizando todo el conjunto de datos, SGD utiliza mini-batches.

Esto permite entrenar modelos de manera más eficiente.

Cómo funciona

Cada mini-batch produce una actualización de los parámetros.

Esto genera un proceso de optimización más rápido pero más ruidoso.

Por qué es importante

SGD permite entrenar redes neuronales en grandes conjuntos de datos.

Ejemplo conceptual

En un conjunto de datos de millones de ejemplos, el modelo puede actualizar sus parámetros utilizando grupos pequeños de datos.

Ejemplo en PyTorch

optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

Conceptos relacionados

Resumen

SGD es uno de los métodos de optimización más utilizados en el aprendizaje profundo.