Aprendizaje Q

Definición breve

El aprendizaje Q es un algoritmo de aprendizaje por refuerzo que permite a un agente aprender la mejor acción en cada estado estimando directamente el valor de las acciones sin necesidad de conocer el modelo del entorno.

Explicación del concepto

El aprendizaje Q es un método model-free, lo que significa que el agente no necesita conocer cómo funciona el entorno.

En su lugar, aprende una función llamada:

  • función Q (acción-valor)

Esta función estima la calidad de tomar una acción en un estado determinado.

El objetivo es encontrar una política que maximice la recompensa acumulada a lo largo del tiempo.

Cómo funciona

El proceso incluye:

  1. Observación del estado
    El agente percibe el entorno.
  2. Selección de acción
    Se elige una acción (exploración o explotación).
  3. Recepción de recompensa
    El entorno devuelve una recompensa.
  4. Actualización de la función Q
    Se ajusta la estimación en función de la experiencia.

Fórmula clave

Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a’} Q(s’,a’) – Q(s,a)\right]

Donde:

  • sss es el estado actual
  • aaa es la acción
  • rrr es la recompensa
  • ss’s′ es el siguiente estado
  • alpha\\alphaalpha es la tasa de aprendizaje
  • gamma\\gammagamma es el factor de descuento

Características principales

  • aprendizaje sin modelo
  • basado en prueba y error
  • actualización iterativa
  • convergencia hacia una política óptima

Exploración vs Explotación

El agente debe equilibrar:

  • exploración → probar nuevas acciones
  • explotación → usar lo aprendido

Una estrategia común es ε-greedy.

Por qué es importante

El aprendizaje Q es uno de los algoritmos fundamentales del aprendizaje por refuerzo.

Permite:

  • aprender políticas óptimas
  • tomar decisiones autónomas
  • resolver problemas secuenciales

Ejemplo conceptual

Un agente en un juego aprende qué movimientos maximizan su puntuación tras múltiples intentos.

Ejemplo en PyTorch (conceptual)

Python
Q[s, a] = Q[s, a] + alpha * (reward + gamma * Q[s_next].max() - Q[s, a])

Conceptos relacionados

Resumen

El aprendizaje Q es un algoritmo clave en el aprendizaje por refuerzo que permite a los agentes aprender a tomar decisiones óptimas mediante la estimación de valores de acción. Es ampliamente utilizado en problemas donde el entorno es desconocido y se aprende mediante interacción.