Lexicon Redes Neuronales

Positional Encoding

El positional encoding es un mecanismo que permite a los Transformers incorporar información sobre la posición de los tokens en una secuencia.

Como los Transformers procesan todos los tokens simultáneamente, necesitan información adicional para conocer el orden de los elementos.

Los embeddings de posición se suman a los embeddings de los tokens antes de entrar en el modelo.

Sin codificación posicional, el modelo no podría distinguir entre diferentes órdenes de palabras.

Las frases:

«El perro mordió al hombre»
«El hombre mordió al perro»

tienen los mismos tokens pero diferente significado.

position = torch.arange(0, seq_length)

El positional encoding permite que los Transformers comprendan la estructura de las secuencias.