Lexicon Redes Neuronales

Aprendizaje por refuerzo

Definición breve

El aprendizaje por refuerzo es un tipo de aprendizaje automático en el que un agente aprende a tomar decisiones mediante la interacción con un entorno, recibiendo recompensas o penalizaciones.

Explicación del concepto

En el aprendizaje por refuerzo, un agente no recibe ejemplos con respuestas correctas, sino que aprende a partir de la experiencia.

El agente interactúa con un entorno y, en cada paso:

realiza una acción
observa el resultado
recibe una recompensa o castigo

El objetivo es aprender una estrategia (política) que maximice la recompensa acumulada a lo largo del tiempo.

Este enfoque está inspirado en cómo los seres humanos y animales aprenden a través de la experiencia.

Cómo funciona

El proceso de aprendizaje por refuerzo incluye los siguientes elementos:

Agente
El sistema que toma decisiones.
Entorno
El sistema con el que el agente interactúa.
Estado (state)
La situación actual del entorno.
Acción (action)
La decisión que toma el agente.
Recompensa (reward)
La retroalimentación recibida tras una acción.

El agente aprende a seleccionar acciones que maximicen la recompensa total.

Por qué es importante

El aprendizaje por refuerzo es clave para problemas donde las decisiones son secuenciales.

Se utiliza en:

videojuegos
robótica
sistemas de recomendación
trading automatizado
control de sistemas

Permite a los modelos aprender estrategias complejas sin supervisión directa.

Ejemplo conceptual

Un agente que aprende a jugar un videojuego:

prueba diferentes acciones
recibe puntos por acciones correctas
evita acciones que generan penalizaciones

Con el tiempo, aprende la mejor estrategia para maximizar su puntuación.

Ejemplo en PyTorch

Un modelo de aprendizaje por refuerzo puede representar una política.

			
import torch.nn as nn
policy = nn.Sequential(
    nn.Linear(8, 32),
    nn.ReLU(),
    nn.Linear(32, 4)
)

		

Este modelo puede aprender a seleccionar acciones en función del estado.

Conceptos relacionados

Resumen

El aprendizaje por refuerzo es un enfoque en el que un agente aprende a tomar decisiones mediante la interacción con un entorno y la recepción de recompensas. Es especialmente útil en problemas donde las decisiones son secuenciales y permite desarrollar estrategias complejas sin necesidad de datos etiquetados.