Definición breve
El positional encoding es un mecanismo que permite a los Transformers incorporar información sobre la posición de los tokens en una secuencia.
Explicación del concepto
Como los Transformers procesan todos los tokens simultáneamente, necesitan información adicional para conocer el orden de los elementos.
Cómo funciona
Los embeddings de posición se suman a los embeddings de los tokens antes de entrar en el modelo.
Por qué es importante
Sin codificación posicional, el modelo no podría distinguir entre diferentes órdenes de palabras.
Ejemplo conceptual
Las frases:
«El perro mordió al hombre»
«El hombre mordió al perro»
tienen los mismos tokens pero diferente significado.
Ejemplo en PyTorch
Python
position = torch.arange(0, seq_length)
Conceptos relacionados
- Transformers
- Embeddings
Resumen
El positional encoding permite que los Transformers comprendan la estructura de las secuencias.