Política Determinista vs Política Estocástica: ¿Cuál elegir?

Introducción

En el aprendizaje por refuerzo, el comportamiento de un agente está definido por su política (policy):

👉 Una función que decide qué acción tomar en cada estado.

Pero no todas las políticas son iguales. Existen dos enfoques principales:

👉 Política determinista
👉 Política estocástica

Elegir entre ellas afecta directamente:

  • El comportamiento del agente
  • La exploración del entorno
  • El rendimiento final

📘 ¿Qué es una Política Determinista?

Una política determinista siempre asigna una única acción a cada estado.

👉 Dado un estado, la acción es siempre la misma.

Representación:

  • π(s) = a

Características:

  • Decisiones fijas
  • Comportamiento predecible
  • Sin aleatoriedad

Ejemplo:

Un agente que siempre toma la acción con mayor recompensa conocida.

📙 ¿Qué es una Política Estocástica?

Una política estocástica asigna una distribución de probabilidad sobre acciones.

👉 Dado un estado, el agente elige acciones con cierta probabilidad.

Representación:

  • π(a | s) = probabilidad de acción a dado estado s

Características:

  • Introduce aleatoriedad
  • Permite exploración
  • Mayor flexibilidad

Ejemplo:

Un agente que elige acciones con probabilidades basadas en su valor esperado.

⚖️ Comparación directa

AspectoPolítica DeterministaPolítica Estocástica
SalidaAcción únicaDistribución de acciones
AleatoriedadNo
ExploraciónLimitadaAlta
EstabilidadAltaVariable
FlexibilidadBajaAlta
ComplejidadBajaMayor

✅ Ventajas y desventajas

🔹 Política Determinista

Ventajas:

  • Simple y eficiente
  • Fácil de implementar
  • Comportamiento estable
  • Menor coste computacional

Desventajas:

  • Poca exploración
  • Puede quedarse en óptimos locales
  • Menos robusta en entornos inciertos

🔹 Política Estocástica

Ventajas:

  • Mejora la exploración
  • Evita quedarse atrapado en soluciones subóptimas
  • Más adecuada para entornos inciertos

Desventajas:

  • Mayor complejidad
  • Comportamiento menos predecible
  • Puede ser menos eficiente

🎯 ¿Cuándo usar cada una?

Usa política determinista si:

  • El entorno es estable
  • Ya conoces buenas acciones
  • Necesitas eficiencia

👉 Ejemplo: control robótico optimizado

Usa política estocástica si:

  • El entorno es incierto
  • Necesitas exploración
  • Estás en fase de aprendizaje

👉 Ejemplo: juegos, sistemas complejos

🧠 Insight clave

👉 Política determinista = elegir lo mejor conocido
👉 Política estocástica = explorar posibles alternativas

🔄 Relación con exploración vs explotación

  • Política determinista → explotación
  • Política estocástica → exploración

👉 Ambas están profundamente conectadas

⚠️ Trade-off crítico

  • Determinista → eficiencia pero menos aprendizaje
  • Estocástica → mejor aprendizaje pero más incertidumbre

🔗 Enfoques modernos

Muchos sistemas combinan ambos:

  1. Política estocástica durante entrenamiento
  2. Política determinista en producción

👉 Resultado: aprendizaje + eficiencia

📈 Impacto en el rendimiento

La elección afecta:

  • Velocidad de aprendizaje
  • Robustez
  • Calidad de la política final

🔗 Conceptos relacionados

🧾 Conclusión

No hay una única mejor opción:

  • Política determinista → eficiencia y estabilidad
  • Política estocástica → exploración y aprendizaje

El mejor enfoque depende del contexto y la fase del sistema.