Introducción
En el aprendizaje por refuerzo, no solo importa qué aprende un agente, sino también cómo aprende.
Una de las distinciones más importantes es:
👉 Aprendizaje On-Policy
👉 Aprendizaje Off-Policy
Esta diferencia determina:
- Qué datos se utilizan para aprender
- Cómo se actualiza la política
- Qué tan eficiente es el aprendizaje
¿Qué es el Aprendizaje On-Policy?
El aprendizaje on-policy ocurre cuando el agente aprende a partir de las acciones que él mismo está ejecutando.
👉 La política que se evalúa es la misma que se utiliza para actuar.
Características:
- Aprendizaje directo
- Basado en la política actual
- Requiere interacción continua con el entorno
Ejemplo:
El agente mejora su comportamiento mientras ejecuta su propia estrategia.
¿Qué es el Aprendizaje Off-Policy?
El aprendizaje off-policy ocurre cuando el agente aprende a partir de datos generados por otra política.
👉 Puede aprender de experiencias pasadas o de otros agentes.
Características:
- Uso de datos externos o históricos
- Mayor eficiencia en el uso de datos
- Separación entre política de comportamiento y política objetivo
Ejemplo:
Un agente aprende observando datos recolectados previamente.
⚖️ Comparación directa
| Aspecto | On-Policy | Off-Policy |
|---|---|---|
| Fuente de datos | Política actual | Otra política |
| Eficiencia de datos | Baja | Alta |
| Estabilidad | Alta | Variable |
| Complejidad | Baja | Mayor |
| Reutilización de datos | Limitada | Alta |
| Exploración | Directa | Flexible |
Ventajas y desventajas
On-Policy
Ventajas:
- Aprendizaje más estable
- Menor complejidad
- Comportamiento más consistente
Desventajas:
- Baja eficiencia de datos
- Requiere muchas interacciones
- No reutiliza experiencias pasadas fácilmente
🔹 Off-Policy
Ventajas:
- Alta eficiencia de datos
- Permite reutilizar experiencias
- Ideal para aprendizaje a gran escala
Desventajas:
- Mayor complejidad
- Riesgo de inestabilidad
- Requiere técnicas adicionales (e.g., replay buffer)
¿Cuándo usar cada uno?
Usa On-Policy si:
- Buscas estabilidad
- El entorno es dinámico
- Puedes interactuar fácilmente con el entorno
👉 Ejemplo: simulaciones, entornos controlados
Usa Off-Policy si:
- Tienes datos históricos
- Quieres eficiencia en el aprendizaje
- El acceso al entorno es costoso
👉 Ejemplo: robótica, sistemas reales, aprendizaje a gran escala
Insight clave
👉 On-Policy = aprender haciendo
👉 Off-Policy = aprender observando
Ejemplos de algoritmos
On-Policy:
- SARSA
- Policy Gradient
- PPO (Proximal Policy Optimization)
Off-Policy:
- Q-Learning
- DQN (Deep Q-Network)
- DDPG
Trade-off crítico
- On-Policy → más estable, menos eficiente
- Off-Policy → más eficiente, más complejo
Impacto en el rendimiento
La elección afecta:
- Velocidad de aprendizaje
- Uso de datos
- Escalabilidad
- Robustez
Relación con otros conceptos
Conclusión
Ambos enfoques tienen su lugar:
- On-Policy → estabilidad y simplicidad
- Off-Policy → eficiencia y escalabilidad
La elección depende del entorno, los datos disponibles y los objetivos del sistema.