Lexicon Redes Neuronales

Multi-Head Attention

La multi-head attention es una extensión del self-attention que permite al modelo atender simultáneamente a diferentes aspectos de una secuencia.

En lugar de usar una sola operación de atención, el modelo utiliza múltiples “cabezas” de atención.

Cada cabeza aprende diferentes patrones o relaciones dentro de los datos.

El modelo divide los embeddings en múltiples subespacios y aplica atención de forma paralela.

Permite capturar múltiples relaciones semánticas dentro de una secuencia.

Una cabeza puede enfocarse en relaciones sintácticas mientras otra se enfoca en relaciones semánticas.

nn.MultiheadAttention(embed_dim=512, num_heads=8)

La multi-head attention mejora la capacidad de representación de los Transformers.