Multi-Head Attention

Definición breve

La multi-head attention es una extensión del self-attention que permite al modelo atender simultáneamente a diferentes aspectos de una secuencia.

Explicación del concepto

En lugar de usar una sola operación de atención, el modelo utiliza múltiples “cabezas” de atención.

Cada cabeza aprende diferentes patrones o relaciones dentro de los datos.

Cómo funciona

El modelo divide los embeddings en múltiples subespacios y aplica atención de forma paralela.

Por qué es importante

Permite capturar múltiples relaciones semánticas dentro de una secuencia.

Ejemplo conceptual

Una cabeza puede enfocarse en relaciones sintácticas mientras otra se enfoca en relaciones semánticas.

Ejemplo en PyTorch

nn.MultiheadAttention(embed_dim=512, num_heads=8)

Conceptos relacionados

Resumen

La multi-head attention mejora la capacidad de representación de los Transformers.