Función de recompensa

Definición breve

La función de recompensa es una función que asigna un valor numérico a las acciones de un agente, indicando qué tan buenas o deseables son dentro de un entorno.

Explicación del concepto

En aprendizaje por refuerzo, la función de recompensa guía el comportamiento del agente.

Responde a la pregunta:

👉 ¿Qué acciones son mejores y cuáles deben evitarse?

El agente aprende a maximizar la recompensa acumulada, ajustando sus decisiones en función de la retroalimentación recibida.

Una función de recompensa bien diseñada es crucial, ya que define el objetivo real del aprendizaje.

Cómo funciona

El proceso incluye:

  1. El agente realiza una acción en el entorno.
  2. El entorno responde con una recompensa.
  3. El agente ajusta su estrategia para maximizar recompensas futuras.
  4. Este ciclo se repite durante el entrenamiento.

El objetivo es maximizar la recompensa total a largo plazo.

Fórmula clave

Rt=k=0γkrt+kR_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}

Donde:

  • rt+kr_{t+k}rt+k​ es la recompensa en el tiempo futuro
  • γ\gammaγ es el factor de descuento

Problemas comunes

1. Especificación incorrecta

La recompensa no refleja el objetivo real.

2. Explotación del sistema

El agente encuentra formas inesperadas de maximizar la recompensa.

3. Recompensas escasas

Dificultan el aprendizaje.

Por qué es importante

La función de recompensa define el comportamiento del agente.

Impacta en:

  • calidad de las decisiones
  • velocidad de aprendizaje
  • alineación con objetivos humanos
  • seguridad del sistema

Ejemplo conceptual

Un agente en un videojuego recibe:

  • +1 por avanzar
  • -10 por perder

El agente aprende a evitar perder y avanzar más.

Ejemplo en PyTorch

Ejemplo simplificado:

reward = environment.step(action)

El entorno devuelve una recompensa tras cada acción.

Conceptos relacionados

Resumen

La función de recompensa es el mecanismo que guía el aprendizaje en sistemas de aprendizaje por refuerzo. Define qué comportamientos son deseables y permite al agente aprender estrategias óptimas para maximizar beneficios a largo plazo.