Lexicon Redes Neuronales

Unidad recurrente con compuertas

Definición breve

La unidad recurrente con compuertas (GRU) es un tipo de red neuronal recurrente diseñada para modelar datos secuenciales mediante mecanismos de control que regulan el flujo de información.

Explicación del concepto

Las GRU son una evolución de las redes neuronales recurrentes (RNN) tradicionales, creadas para resolver problemas como:

gradientes desvanecientes
dificultad para capturar dependencias a largo plazo

A diferencia de las LSTM, las GRU utilizan una arquitectura más simple con menos compuertas, lo que reduce la complejidad y mejora la eficiencia.

Cómo funciona

Las GRU utilizan dos compuertas principales:

Compuerta de actualización (update gate)
Controla cuánta información pasada se mantiene.
Compuerta de reinicio (reset gate)
Decide cuánto olvidar del estado anterior.

Estas compuertas permiten combinar información pasada y nueva de manera eficiente.

Fórmula conceptual

$h_t = (1 – z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

Donde:

$h_t$ ht es el estado actual
$h_{t-1}$ ht−1 es el estado previo
$z_t$ zt es la compuerta de actualización
$\\tilde{h}_t$ tildeht es la nueva información

Características principales

arquitectura más simple que LSTM
menos parámetros
entrenamiento más rápido
buen rendimiento en secuencias

Comparación con LSTM

Aspecto	GRU	LSTM
Complicación	Menor	Mayor
Número de compuertas	2	3
Velocidad	Más rápida	Más lenta
Capacidad de memoria	Alta	Muy alta

Aplicaciones

procesamiento de lenguaje natural
predicción de series temporales
análisis de secuencias
sistemas de recomendación

Ejemplo conceptual

Una GRU puede analizar una secuencia de palabras y mantener el contexto relevante sin necesidad de almacenar toda la información previa.

Ejemplo en PyTorch

Uso de una capa GRU:

			
import torch.nn as nn
gru = nn.GRU(input_size=10, hidden_size=20, num_layers=1)
output, h_n = gru(input_sequence)

Conceptos relacionados

Resumen

La unidad recurrente con compuertas (GRU) es una arquitectura eficiente para el modelado de secuencias que simplifica el diseño de las LSTM manteniendo un buen rendimiento. Es ampliamente utilizada en tareas donde se requiere procesar datos secuenciales de forma rápida y efectiva.