Lexicon Redes Neuronales

Aprendizaje Q

Definición breve

El aprendizaje Q es un algoritmo de aprendizaje por refuerzo que permite a un agente aprender la mejor acción en cada estado estimando directamente el valor de las acciones sin necesidad de conocer el modelo del entorno.

Explicación del concepto

El aprendizaje Q es un método model-free, lo que significa que el agente no necesita conocer cómo funciona el entorno.

En su lugar, aprende una función llamada:

función Q (acción-valor)

Esta función estima la calidad de tomar una acción en un estado determinado.

El objetivo es encontrar una política que maximice la recompensa acumulada a lo largo del tiempo.

Cómo funciona

El proceso incluye:

Observación del estado
El agente percibe el entorno.
Selección de acción
Se elige una acción (exploración o explotación).
Recepción de recompensa
El entorno devuelve una recompensa.
Actualización de la función Q
Se ajusta la estimación en función de la experiencia.

Fórmula clave

$Q(s,a) \leftarrow Q(s,a) + \alpha \left[r + \gamma \max_{a’} Q(s’,a’) – Q(s,a)\right]$

Donde:

$s$ s es el estado actual
$a$ a es la acción
$r$ r es la recompensa
$s’$ s′ es el siguiente estado
$\\alpha$ alpha es la tasa de aprendizaje
$\\gamma$ gamma es el factor de descuento

Características principales

aprendizaje sin modelo
basado en prueba y error
actualización iterativa
convergencia hacia una política óptima

Exploración vs Explotación

El agente debe equilibrar:

exploración → probar nuevas acciones
explotación → usar lo aprendido

Una estrategia común es ε-greedy.

Por qué es importante

El aprendizaje Q es uno de los algoritmos fundamentales del aprendizaje por refuerzo.

Permite:

aprender políticas óptimas
tomar decisiones autónomas
resolver problemas secuenciales

Ejemplo conceptual

Un agente en un juego aprende qué movimientos maximizan su puntuación tras múltiples intentos.

Ejemplo en PyTorch (conceptual)

Q[s, a] = Q[s, a] + alpha * (reward + gamma * Q[s_next].max() - Q[s, a])

Conceptos relacionados

Resumen

El aprendizaje Q es un algoritmo clave en el aprendizaje por refuerzo que permite a los agentes aprender a tomar decisiones óptimas mediante la estimación de valores de acción. Es ampliamente utilizado en problemas donde el entorno es desconocido y se aprende mediante interacción.