Lexicon Redes Neuronales

Redes residuales

Definición breve

Las redes residuales son arquitecturas de redes neuronales profundas que utilizan conexiones directas (skip connections) para facilitar el entrenamiento y mejorar el flujo de gradientes.

Explicación del concepto

A medida que las redes neuronales se vuelven más profundas, pueden surgir problemas como:

gradientes desvanecientes
degradación del rendimiento
dificultad en el entrenamiento

Las redes residuales introducen conexiones de salto que permiten que la información fluya directamente entre capas.

En lugar de aprender una transformación completa, el modelo aprende una función residual, es decir, la diferencia entre la entrada y la salida deseada.

Cómo funciona

El bloque residual incluye:

Una entrada $x$ x
Una transformación $F(x)$ F(x)
Una conexión directa que suma la entrada

La salida final es la combinación de ambos caminos.

Fórmula clave

$y = F(x) + x$ y=F(x)+x

Beneficios clave

mejora el flujo de gradientes
permite entrenar redes más profundas
reduce problemas de degradación
acelera la convergencia

Arquitectura

Un bloque residual típico contiene:

capas convolucionales o lineales
funciones de activación
conexiones de salto

Estos bloques se apilan para formar redes profundas.

Por qué es importante

Las redes residuales han sido fundamentales en el avance del deep learning.

Aplicaciones:

visión por computadora
reconocimiento de imágenes
procesamiento de video

Son la base de muchas arquitecturas modernas.

Ejemplo conceptual

En lugar de aprender directamente una función compleja, el modelo aprende cómo ajustar ligeramente la entrada para obtener la salida.

Ejemplo en PyTorch

Bloque residual simplificado:

			
import torch.nn as nn
class ResidualBlock(nn.Module):
    def __init__(self, dim):
        super().__init__()
        self.layer = nn.Linear(dim, dim)
    def forward(self, x):
        return self.layer(x) + x

		

Conceptos relacionados

Resumen

Las redes residuales (ResNets) utilizan conexiones de salto para facilitar el entrenamiento de redes profundas. Al aprender funciones residuales, mejoran la estabilidad, el flujo de gradientes y el rendimiento en tareas complejas de inteligencia artificial.