Definición breve
La tokenización es el proceso de dividir texto en unidades más pequeñas llamadas tokens.
Explicación del concepto
Los tokens pueden ser:
- palabras
- subpalabras
- caracteres
Muchos modelos modernos utilizan subword tokenization.
Cómo funciona
Algoritmos comunes incluyen:
- Byte Pair Encoding (BPE)
- SentencePiece
- WordPiece
Por qué es importante
La tokenización determina cómo el modelo interpreta el texto.
Ejemplo conceptual
La palabra:
«desarrolladores»
puede dividirse en varios sub-tokens.
Ejemplo en Python
from transformers import AutoTokenizertokenizer = AutoTokenizer.from_pretrained("gpt2")tokens = tokenizer("Hola mundo")
Conceptos relacionados
- Embeddings
- Language Models
Resumen
La tokenización convierte texto en unidades procesables por modelos de lenguaje.