Introducción
En el aprendizaje por refuerzo, el comportamiento de un agente está definido por su política (policy):
👉 Una función que decide qué acción tomar en cada estado.
Pero no todas las políticas son iguales. Existen dos enfoques principales:
👉 Política determinista
👉 Política estocástica
Elegir entre ellas afecta directamente:
- El comportamiento del agente
- La exploración del entorno
- El rendimiento final
📘 ¿Qué es una Política Determinista?
Una política determinista siempre asigna una única acción a cada estado.
👉 Dado un estado, la acción es siempre la misma.
Representación:
- π(s) = a
Características:
- Decisiones fijas
- Comportamiento predecible
- Sin aleatoriedad
Ejemplo:
Un agente que siempre toma la acción con mayor recompensa conocida.
📙 ¿Qué es una Política Estocástica?
Una política estocástica asigna una distribución de probabilidad sobre acciones.
👉 Dado un estado, el agente elige acciones con cierta probabilidad.
Representación:
- π(a | s) = probabilidad de acción a dado estado s
Características:
- Introduce aleatoriedad
- Permite exploración
- Mayor flexibilidad
Ejemplo:
Un agente que elige acciones con probabilidades basadas en su valor esperado.
⚖️ Comparación directa
| Aspecto | Política Determinista | Política Estocástica |
|---|---|---|
| Salida | Acción única | Distribución de acciones |
| Aleatoriedad | No | Sí |
| Exploración | Limitada | Alta |
| Estabilidad | Alta | Variable |
| Flexibilidad | Baja | Alta |
| Complejidad | Baja | Mayor |
✅ Ventajas y desventajas
🔹 Política Determinista
Ventajas:
- Simple y eficiente
- Fácil de implementar
- Comportamiento estable
- Menor coste computacional
Desventajas:
- Poca exploración
- Puede quedarse en óptimos locales
- Menos robusta en entornos inciertos
🔹 Política Estocástica
Ventajas:
- Mejora la exploración
- Evita quedarse atrapado en soluciones subóptimas
- Más adecuada para entornos inciertos
Desventajas:
- Mayor complejidad
- Comportamiento menos predecible
- Puede ser menos eficiente
🎯 ¿Cuándo usar cada una?
Usa política determinista si:
- El entorno es estable
- Ya conoces buenas acciones
- Necesitas eficiencia
👉 Ejemplo: control robótico optimizado
Usa política estocástica si:
- El entorno es incierto
- Necesitas exploración
- Estás en fase de aprendizaje
👉 Ejemplo: juegos, sistemas complejos
🧠 Insight clave
👉 Política determinista = elegir lo mejor conocido
👉 Política estocástica = explorar posibles alternativas
🔄 Relación con exploración vs explotación
- Política determinista → explotación
- Política estocástica → exploración
👉 Ambas están profundamente conectadas
⚠️ Trade-off crítico
- Determinista → eficiencia pero menos aprendizaje
- Estocástica → mejor aprendizaje pero más incertidumbre
🔗 Enfoques modernos
Muchos sistemas combinan ambos:
- Política estocástica durante entrenamiento
- Política determinista en producción
👉 Resultado: aprendizaje + eficiencia
📈 Impacto en el rendimiento
La elección afecta:
- Velocidad de aprendizaje
- Robustez
- Calidad de la política final
🔗 Conceptos relacionados
🧾 Conclusión
No hay una única mejor opción:
- Política determinista → eficiencia y estabilidad
- Política estocástica → exploración y aprendizaje
El mejor enfoque depende del contexto y la fase del sistema.