Definición breve
La multi-head attention es una extensión del self-attention que permite al modelo atender simultáneamente a diferentes aspectos de una secuencia.
Explicación del concepto
En lugar de usar una sola operación de atención, el modelo utiliza múltiples “cabezas” de atención.
Cada cabeza aprende diferentes patrones o relaciones dentro de los datos.
Cómo funciona
El modelo divide los embeddings en múltiples subespacios y aplica atención de forma paralela.
Por qué es importante
Permite capturar múltiples relaciones semánticas dentro de una secuencia.
Ejemplo conceptual
Una cabeza puede enfocarse en relaciones sintácticas mientras otra se enfoca en relaciones semánticas.
Ejemplo en PyTorch
nn.MultiheadAttention(embed_dim=512, num_heads=8)
Conceptos relacionados
Resumen
La multi-head attention mejora la capacidad de representación de los Transformers.