Definición breve
La función de recompensa es una función que asigna un valor numérico a las acciones de un agente, indicando qué tan buenas o deseables son dentro de un entorno.
Explicación del concepto
En aprendizaje por refuerzo, la función de recompensa guía el comportamiento del agente.
Responde a la pregunta:
👉 ¿Qué acciones son mejores y cuáles deben evitarse?
El agente aprende a maximizar la recompensa acumulada, ajustando sus decisiones en función de la retroalimentación recibida.
Una función de recompensa bien diseñada es crucial, ya que define el objetivo real del aprendizaje.
Cómo funciona
El proceso incluye:
- El agente realiza una acción en el entorno.
- El entorno responde con una recompensa.
- El agente ajusta su estrategia para maximizar recompensas futuras.
- Este ciclo se repite durante el entrenamiento.
El objetivo es maximizar la recompensa total a largo plazo.
Fórmula clave
Donde:
- rt+k es la recompensa en el tiempo futuro
- γ es el factor de descuento
Problemas comunes
1. Especificación incorrecta
La recompensa no refleja el objetivo real.
2. Explotación del sistema
El agente encuentra formas inesperadas de maximizar la recompensa.
3. Recompensas escasas
Dificultan el aprendizaje.
Por qué es importante
La función de recompensa define el comportamiento del agente.
Impacta en:
- calidad de las decisiones
- velocidad de aprendizaje
- alineación con objetivos humanos
- seguridad del sistema
Ejemplo conceptual
Un agente en un videojuego recibe:
- +1 por avanzar
- -10 por perder
El agente aprende a evitar perder y avanzar más.
Ejemplo en PyTorch
Ejemplo simplificado:
reward = environment.step(action)
El entorno devuelve una recompensa tras cada acción.
Conceptos relacionados
- Aprendizaje por refuerzo
- Alineación de IA
- Política (Policy)
- Entorno (Environment)
- Optimización de modelos
Resumen
La función de recompensa es el mecanismo que guía el aprendizaje en sistemas de aprendizaje por refuerzo. Define qué comportamientos son deseables y permite al agente aprender estrategias óptimas para maximizar beneficios a largo plazo.