Lexicon Redes Neuronales

Arquitectura Transformer

Definición breve

La arquitectura Transformer es un tipo de modelo de red neuronal diseñado para procesar secuencias de datos utilizando mecanismos de atención en lugar de recurrencia o convoluciones.

Explicación del concepto

Introducida en el artículo “Attention Is All You Need” (2017), la arquitectura Transformer revolucionó el procesamiento del lenguaje natural.

En lugar de procesar tokens de forma secuencial como las RNN, los Transformers procesan todos los elementos de la secuencia simultáneamente utilizando mecanismos de atención.

Esto permite capturar dependencias entre palabras o tokens incluso cuando están muy separadas en una secuencia.

Cómo funciona

Un Transformer está compuesto principalmente por:

Embedding de tokens
Codificación posicional
Capas de atención
Redes feed-forward
Normalización y conexiones residuales

Estas capas se repiten múltiples veces para construir modelos profundos.

Por qué es importante

Los Transformers son la base de muchos modelos modernos, incluyendo:

GPT
BERT
T5
LLaMA

Ejemplo conceptual

En una frase como:

«El gato que estaba durmiendo en el sofá se despertó.»

El modelo puede identificar que “gato” está relacionado con “se despertó”, incluso con varias palabras entre ellos.

Ejemplo en PyTorch

			
import torch.nn as nn
transformer_layer = nn.TransformerEncoderLayer(
    d_model=512,
    nhead=8
)

		

Conceptos relacionados

Self-Attention
Multi-Head Attention
Positional Encoding
Language Models

Resumen

La arquitectura Transformer permite modelar relaciones complejas en secuencias de datos y es la base de los modelos de lenguaje modernos.