Tokenización

Definición breve

La tokenización es el proceso de dividir texto en unidades más pequeñas llamadas tokens.

Explicación del concepto

Los tokens pueden ser:

  • palabras
  • subpalabras
  • caracteres

Muchos modelos modernos utilizan subword tokenization.

Cómo funciona

Algoritmos comunes incluyen:

  • Byte Pair Encoding (BPE)
  • SentencePiece
  • WordPiece

Por qué es importante

La tokenización determina cómo el modelo interpreta el texto.

Ejemplo conceptual

La palabra:

«desarrolladores»

puede dividirse en varios sub-tokens.

Ejemplo en Python

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokens = tokenizer("Hola mundo")

Conceptos relacionados

  • Embeddings
  • Language Models

Resumen

La tokenización convierte texto en unidades procesables por modelos de lenguaje.