ReLU – Lexicon Redes Neuronales

La función de activación que hizo posible el deep learning moderno

La ReLU (Rectified Linear Unit) es una función de activación que transforma los valores negativos en cero y mantiene los positivos sin cambios.

👉 Es una de las funciones más utilizadas en redes neuronales profundas.

Definición corta

La ReLU es una función que devuelve: $f(x) = \max(0, x)$

Definición detallada

Para cualquier entrada $x$ x: $f(x) = \begin{cases} 0 & \text{si } x < 0 \\ x & \text{si } x \ge 0 \end{cases}$

👉 Introduce no linealidad de forma simple y eficiente.

Intuición

ReLU responde:

👉 “Si la señal no es útil (negativa), la ignoro; si es útil, la dejo pasar”

Entrada negativa → 0  
Entrada positiva → igual

Interpretación geométrica

mitad del plano se “apaga”
mitad se mantiene lineal

👉 rompe la linealidad sin complejidad.

📊 Ejemplo conceptual

      |
      |      /
      |     /
------|----/----
      |
      |

🔄 Relación con otros conceptos

Función de activación
Gradiente
Desvanecimiento del gradiente
Backpropagation

Propiedades clave

🔹 1. No lineal

Permite modelar relaciones complejas.

🔹 2. Computacionalmente eficiente

sin exponenciales
rápida

🔹 3. Gradiente simple

$f'(x) = \begin{cases} 0 & x < 0 \\ 1 & x > 0 \end{cases}$

🔹 4. Sparsity (activación dispersa)

Muchas neuronas → valor 0.

📊 Ejemplo conceptual

Muchas salidas = 0  
↓  
Red más eficiente

Ventajas en deep learning

🔹 1. Reduce el desvanecimiento del gradiente

No satura como sigmoid.

🔹 2. Entrenamiento más rápido

Gradiente constante en región positiva.

🔹 3. Implementación simple

Ideal para GPUs.

🔹 4. Escalabilidad

Funciona bien en redes profundas.

📊 Comparación con sigmoid

Función	Problema
Sigmoid	saturación
ReLU	gradiente estable

Problema: “Dying ReLU”

Si: $x < 0 \quad \forall$

👉 gradiente = 0 → neurona muerta.

📊 Ejemplo conceptual

Entrada siempre negativa  
↓  
Salida siempre 0  
↓  
No aprende

🧠 Soluciones

🔹 1. Leaky ReLU

$f(x) = \begin{cases} 0.01x & x < 0 \\ x & x \ge 0 \end{cases}$

🔹 2. Parametric ReLU (PReLU)

Pendiente aprendible.

🔹 3. ELU / GELU

Versiones más suaves.

Ejemplo en Python

Python

			
import numpy as np
def relu(x):
    return np.maximum(0, x)
x = np.array([-2, -1, 0, 1, 2])
print(relu(x))

		

Ejemplo en PyTorch

Python

			
import torch
import torch.nn as nn
relu = nn.ReLU()
x = torch.tensor([-2.0, -1.0, 0.0, 1.0, 2.0])
print(relu(x))

		

Ejemplo en red neuronal

Python

			
import torch
import torch.nn as nn
model = nn.Sequential(
    nn.Linear(10, 20),
    nn.ReLU(),
    nn.Linear(20, 1)
)
print(model)

		

Qué muestra este ejemplo

uso práctico en redes
activación entre capas
base de deep learning moderno

Errores comunes

Pensar que ReLU siempre es perfecta

Tiene limitaciones.

Ignorar neuronas muertas

Puede degradar el modelo.

Usar learning rate alto

Puede matar neuronas.

Ejemplo conceptual en ML

Entrada  
↓  
Capa lineal  
↓  
ReLU  
↓  
No linealidad

Interpretación profunda

ReLU fue clave porque:

permitió redes profundas entrenables
redujo problemas de gradiente
simplificó cálculos

👉 Es uno de los pilares del deep learning moderno.

Conclusión

La ReLU es una función de activación simple pero poderosa que introdujo estabilidad y eficiencia en redes neuronales profundas.

👉 Sin ReLU, el deep learning moderno no sería práctico.

Related Concepts

Función de activación
Sigmoid
Tanh
Leaky ReLU
Desvanecimiento del gradiente