Definición breve
Los embeddings de tokens son representaciones vectoriales densas que transforman palabras o subpalabras en vectores numéricos.
Explicación del concepto
Los modelos de lenguaje no trabajan directamente con texto. Primero convierten tokens en vectores que capturan relaciones semánticas.
Cómo funciona
Cada token se asigna a un vector en un espacio de alta dimensión.
Por qué es importante
Los embeddings permiten que el modelo capture similitudes semánticas entre palabras.
Ejemplo conceptual
Los vectores de “rey” y “reina” estarán cerca en el espacio vectorial.
Ejemplo en PyTorch
Python
embedding = nn.Embedding(num_embeddings=10000, embedding_dim=512)
Conceptos relacionados
- Tokenization
- Transformers
Resumen
Los embeddings transforman tokens en representaciones numéricas que pueden ser procesadas por redes neuronales.