ReLU

La función de activación que hizo posible el deep learning moderno

La ReLU (Rectified Linear Unit) es una función de activación que transforma los valores negativos en cero y mantiene los positivos sin cambios.

👉 Es una de las funciones más utilizadas en redes neuronales profundas.

Definición corta

La ReLU es una función que devuelve:f(x)=max(0,x)f(x) = \max(0, x)

Definición detallada

Para cualquier entrada xxx:f(x)={0si x<0xsi x0f(x) = \begin{cases} 0 & \text{si } x < 0 \\ x & \text{si } x \ge 0 \end{cases}

👉 Introduce no linealidad de forma simple y eficiente.

Intuición

ReLU responde:

👉 “Si la señal no es útil (negativa), la ignoro; si es útil, la dejo pasar”

Entrada negativa → 0  
Entrada positiva → igual

Interpretación geométrica

  • mitad del plano se “apaga”
  • mitad se mantiene lineal

👉 rompe la linealidad sin complejidad.


📊 Ejemplo conceptual

      |
| /
| /
------|----/----
|
|

🔄 Relación con otros conceptos

  • Función de activación
  • Gradiente
  • Desvanecimiento del gradiente
  • Backpropagation

Propiedades clave

🔹 1. No lineal

Permite modelar relaciones complejas.

🔹 2. Computacionalmente eficiente

  • sin exponenciales
  • rápida

🔹 3. Gradiente simple

f(x)={0x<01x>0f'(x) = \begin{cases} 0 & x < 0 \\ 1 & x > 0 \end{cases}

🔹 4. Sparsity (activación dispersa)

Muchas neuronas → valor 0.


📊 Ejemplo conceptual

Muchas salidas = 0  

Red más eficiente

Ventajas en deep learning

🔹 1. Reduce el desvanecimiento del gradiente

No satura como sigmoid.

🔹 2. Entrenamiento más rápido

Gradiente constante en región positiva.

🔹 3. Implementación simple

Ideal para GPUs.

🔹 4. Escalabilidad

Funciona bien en redes profundas.


📊 Comparación con sigmoid

FunciónProblema
Sigmoidsaturación
ReLUgradiente estable

Problema: “Dying ReLU”

Si:x<0x < 0 \quad \forall

👉 gradiente = 0 → neurona muerta.


📊 Ejemplo conceptual

Entrada siempre negativa  

Salida siempre 0

No aprende

🧠 Soluciones

🔹 1. Leaky ReLU

f(x)={0.01xx<0xx0f(x) = \begin{cases} 0.01x & x < 0 \\ x & x \ge 0 \end{cases}

🔹 2. Parametric ReLU (PReLU)

Pendiente aprendible.

🔹 3. ELU / GELU

Versiones más suaves.

Ejemplo en Python

Python
import numpy as np
def relu(x):
return np.maximum(0, x)
x = np.array([-2, -1, 0, 1, 2])
print(relu(x))

Ejemplo en PyTorch

Python
import torch
import torch.nn as nn
relu = nn.ReLU()
x = torch.tensor([-2.0, -1.0, 0.0, 1.0, 2.0])
print(relu(x))

Ejemplo en red neuronal

Python
import torch
import torch.nn as nn
model = nn.Sequential(
nn.Linear(10, 20),
nn.ReLU(),
nn.Linear(20, 1)
)
print(model)

Qué muestra este ejemplo

  • uso práctico en redes
  • activación entre capas
  • base de deep learning moderno

Errores comunes

Pensar que ReLU siempre es perfecta

Tiene limitaciones.

Ignorar neuronas muertas

Puede degradar el modelo.


Usar learning rate alto

Puede matar neuronas.

Ejemplo conceptual en ML

Entrada  

Capa lineal

ReLU

No linealidad

Interpretación profunda

ReLU fue clave porque:

  • permitió redes profundas entrenables
  • redujo problemas de gradiente
  • simplificó cálculos

👉 Es uno de los pilares del deep learning moderno.

Conclusión

La ReLU es una función de activación simple pero poderosa que introdujo estabilidad y eficiencia en redes neuronales profundas.

👉 Sin ReLU, el deep learning moderno no sería práctico.

Related Concepts

  • Función de activación
  • Sigmoid
  • Tanh
  • Leaky ReLU
  • Desvanecimiento del gradiente