Lexicon Redes Neuronales

Política Determinista vs Política Estocástica: ¿Cuál elegir?

Introducción

En el aprendizaje por refuerzo, el comportamiento de un agente está definido por su política (policy):

👉 Una función que decide qué acción tomar en cada estado.

Pero no todas las políticas son iguales. Existen dos enfoques principales:

👉 Política determinista
👉 Política estocástica

Elegir entre ellas afecta directamente:

El comportamiento del agente
La exploración del entorno
El rendimiento final

📘 ¿Qué es una Política Determinista?

Una política determinista siempre asigna una única acción a cada estado.

👉 Dado un estado, la acción es siempre la misma.

Representación:

π(s) = a

Características:

Decisiones fijas
Comportamiento predecible
Sin aleatoriedad

Ejemplo:

Un agente que siempre toma la acción con mayor recompensa conocida.

📙 ¿Qué es una Política Estocástica?

Una política estocástica asigna una distribución de probabilidad sobre acciones.

👉 Dado un estado, el agente elige acciones con cierta probabilidad.

Representación:

π(a | s) = probabilidad de acción a dado estado s

Características:

Introduce aleatoriedad
Permite exploración
Mayor flexibilidad

Ejemplo:

Un agente que elige acciones con probabilidades basadas en su valor esperado.

⚖️ Comparación directa

Aspecto	Política Determinista	Política Estocástica
Salida	Acción única	Distribución de acciones
Aleatoriedad	No	Sí
Exploración	Limitada	Alta
Estabilidad	Alta	Variable
Flexibilidad	Baja	Alta
Complejidad	Baja	Mayor

✅ Ventajas y desventajas

🔹 Política Determinista

Ventajas:

Simple y eficiente
Fácil de implementar
Comportamiento estable
Menor coste computacional

Desventajas:

Poca exploración
Puede quedarse en óptimos locales
Menos robusta en entornos inciertos

🔹 Política Estocástica

Ventajas:

Mejora la exploración
Evita quedarse atrapado en soluciones subóptimas
Más adecuada para entornos inciertos

Desventajas:

Mayor complejidad
Comportamiento menos predecible
Puede ser menos eficiente

🎯 ¿Cuándo usar cada una?

Usa política determinista si:

El entorno es estable
Ya conoces buenas acciones
Necesitas eficiencia

👉 Ejemplo: control robótico optimizado

Usa política estocástica si:

El entorno es incierto
Necesitas exploración
Estás en fase de aprendizaje

👉 Ejemplo: juegos, sistemas complejos

🧠 Insight clave

👉 Política determinista = elegir lo mejor conocido
👉 Política estocástica = explorar posibles alternativas

🔄 Relación con exploración vs explotación

Política determinista → explotación
Política estocástica → exploración

👉 Ambas están profundamente conectadas

⚠️ Trade-off crítico

Determinista → eficiencia pero menos aprendizaje
Estocástica → mejor aprendizaje pero más incertidumbre

🔗 Enfoques modernos

Muchos sistemas combinan ambos:

Política estocástica durante entrenamiento
Política determinista en producción

👉 Resultado: aprendizaje + eficiencia

📈 Impacto en el rendimiento

La elección afecta:

Velocidad de aprendizaje
Robustez
Calidad de la política final

🔗 Conceptos relacionados

🧾 Conclusión

No hay una única mejor opción:

Política determinista → eficiencia y estabilidad
Política estocástica → exploración y aprendizaje

El mejor enfoque depende del contexto y la fase del sistema.