Definición breve
El aprendizaje Q es un algoritmo de aprendizaje por refuerzo que permite a un agente aprender la mejor acción en cada estado estimando directamente el valor de las acciones sin necesidad de conocer el modelo del entorno.
Explicación del concepto
El aprendizaje Q es un método model-free, lo que significa que el agente no necesita conocer cómo funciona el entorno.
En su lugar, aprende una función llamada:
- función Q (acción-valor)
Esta función estima la calidad de tomar una acción en un estado determinado.
El objetivo es encontrar una política que maximice la recompensa acumulada a lo largo del tiempo.
Cómo funciona
El proceso incluye:
- Observación del estado
El agente percibe el entorno. - Selección de acción
Se elige una acción (exploración o explotación). - Recepción de recompensa
El entorno devuelve una recompensa. - Actualización de la función Q
Se ajusta la estimación en función de la experiencia.
Fórmula clave
Donde:
- s es el estado actual
- a es la acción
- r es la recompensa
- s′ es el siguiente estado
- alpha es la tasa de aprendizaje
- gamma es el factor de descuento
Características principales
- aprendizaje sin modelo
- basado en prueba y error
- actualización iterativa
- convergencia hacia una política óptima
Exploración vs Explotación
El agente debe equilibrar:
- exploración → probar nuevas acciones
- explotación → usar lo aprendido
Una estrategia común es ε-greedy.
Por qué es importante
El aprendizaje Q es uno de los algoritmos fundamentales del aprendizaje por refuerzo.
Permite:
- aprender políticas óptimas
- tomar decisiones autónomas
- resolver problemas secuenciales
Ejemplo conceptual
Un agente en un juego aprende qué movimientos maximizan su puntuación tras múltiples intentos.
Ejemplo en PyTorch (conceptual)
Q[s, a] = Q[s, a] + alpha * (reward + gamma * Q[s_next].max() - Q[s, a])
Conceptos relacionados
Resumen
El aprendizaje Q es un algoritmo clave en el aprendizaje por refuerzo que permite a los agentes aprender a tomar decisiones óptimas mediante la estimación de valores de acción. Es ampliamente utilizado en problemas donde el entorno es desconocido y se aprende mediante interacción.