Definición breve
La política es la función que define qué acción debe tomar un agente en un determinado estado dentro de un entorno.
Explicación del concepto
En aprendizaje por refuerzo, la política es el componente central que guía el comportamiento del agente.
Responde a la pregunta:
👉 ¿Qué acción debe tomar el agente en cada situación?
La política puede representarse como una función que mapea:
- estados → acciones
Puede ser:
- determinista → siempre elige la misma acción
- estocástica → elige acciones con cierta probabilidad
Cómo funciona
El proceso incluye:
- El agente observa el estado del entorno.
- La política determina la acción a tomar.
- El agente ejecuta la acción.
- Recibe una recompensa y actualiza su comportamiento.
La política se optimiza para maximizar la recompensa acumulada.
Fórmula clave
π(a∣s)
Donde:
- π es la política
- s es el estado
- a es la acción
Tipos de políticas
1. Política determinista
Selecciona siempre la misma acción para un estado dado.
2. Política estocástica
Asigna probabilidades a diferentes acciones.
3. Política óptima
Maximiza la recompensa esperada.
Por qué es importante
La política define el comportamiento del agente.
Impacta en:
- calidad de decisiones
- eficiencia del aprendizaje
- rendimiento del sistema
- adaptación al entorno
Ejemplo conceptual
Un agente en un juego decide moverse hacia la derecha cuando detecta una recompensa cercana.
Ejemplo en PyTorch
Una política puede representarse como una red neuronal:
action_probs = model(state)action = action_probs.argmax()
Conceptos relacionados
Resumen
La política es la función que guía las decisiones de un agente en aprendizaje por refuerzo. Define qué acciones tomar en cada estado y es clave para maximizar la recompensa y lograr comportamientos óptimos.