Política

Definición breve

La política es la función que define qué acción debe tomar un agente en un determinado estado dentro de un entorno.

Explicación del concepto

En aprendizaje por refuerzo, la política es el componente central que guía el comportamiento del agente.

Responde a la pregunta:

👉 ¿Qué acción debe tomar el agente en cada situación?

La política puede representarse como una función que mapea:

  • estados → acciones

Puede ser:

  • determinista → siempre elige la misma acción
  • estocástica → elige acciones con cierta probabilidad

Cómo funciona

El proceso incluye:

  1. El agente observa el estado del entorno.
  2. La política determina la acción a tomar.
  3. El agente ejecuta la acción.
  4. Recibe una recompensa y actualiza su comportamiento.

La política se optimiza para maximizar la recompensa acumulada.

Fórmula clave

π(as)\pi(a \mid s)π(a∣s)

Donde:

  • π\piπ es la política
  • sss es el estado
  • aaa es la acción

Tipos de políticas

1. Política determinista

Selecciona siempre la misma acción para un estado dado.

2. Política estocástica

Asigna probabilidades a diferentes acciones.

3. Política óptima

Maximiza la recompensa esperada.

Por qué es importante

La política define el comportamiento del agente.

Impacta en:

  • calidad de decisiones
  • eficiencia del aprendizaje
  • rendimiento del sistema
  • adaptación al entorno

Ejemplo conceptual

Un agente en un juego decide moverse hacia la derecha cuando detecta una recompensa cercana.

Ejemplo en PyTorch

Una política puede representarse como una red neuronal:

action_probs = model(state)
action = action_probs.argmax()

Conceptos relacionados

Resumen

La política es la función que guía las decisiones de un agente en aprendizaje por refuerzo. Define qué acciones tomar en cada estado y es clave para maximizar la recompensa y lograr comportamientos óptimos.