Lexicon Redes Neuronales

Model-Based vs Model-Free RL: ¿Qué enfoque es mejor?

Introducción

En el aprendizaje por refuerzo, los agentes pueden aprender de dos formas fundamentales:

👉 Model-Based RL (basado en modelo)
👉 Model-Free RL (sin modelo)

Esta distinción define cómo el agente entiende su entorno y cómo toma decisiones.

Algunos agentes construyen un modelo del mundo
Otros aprenden directamente de la experiencia

Elegir el enfoque correcto tiene un impacto profundo en:

Eficiencia de aprendizaje
Capacidad de planificación
Complejidad del sistema

¿Qué es Model-Based RL?

El Model-Based RL implica que el agente aprende o utiliza un modelo del entorno.

👉 Este modelo predice:

Cómo evoluciona el entorno (transiciones)
Qué recompensas se obtienen

Características:

Capacidad de planificación
Uso de simulaciones internas
Aprendizaje más eficiente en datos

Ejemplo:

Un agente que simula posibles futuros antes de tomar una decisión.

¿Qué es Model-Free RL?

El Model-Free RL aprende directamente de la experiencia sin modelar el entorno.

👉 El agente aprende:

Qué acciones tomar
Basado en recompensas observadas

Características:

No necesita modelo del entorno
Aprendizaje directo
Mayor simplicidad

Ejemplo:

Un agente que aprende por ensayo y error sin entender cómo funciona el entorno.

Comparación directa

Aspecto	Model-Based RL	Model-Free RL
Modelo del entorno	Sí	No
Planificación	Sí	No
Eficiencia de datos	Alta	Baja
Complejidad	Alta	Baja
Velocidad de entrenamiento	Más rápida (con buen modelo)	Más lenta
Robustez	Dependiente del modelo	Alta

Ventajas y desventajas

Model-Based RL

Ventajas:

Mayor eficiencia de datos
Permite planificación
Mejor en entornos con pocos datos
Puede anticipar consecuencias

Desventajas:

Difícil de construir un buen modelo
Sensible a errores del modelo
Mayor complejidad

Model-Free RL

Ventajas:

Más simple
No requiere conocimiento del entorno
Más robusto ante errores de modelado

Desventajas:

Baja eficiencia de datos
Requiere muchas interacciones
No puede planificar explícitamente

¿Cuándo usar cada uno?

Usa Model-Based RL si:

Tienes pocos datos
Puedes modelar el entorno
Necesitas planificación

👉 Ejemplo: robótica, simulaciones físicas

Usa Model-Free RL si:

El entorno es complejo o desconocido
Tienes acceso a muchos datos
Buscas simplicidad

👉 Ejemplo: juegos, entornos altamente complejos

Insight clave

👉 Model-Based = pensar antes de actuar
👉 Model-Free = aprender actuando

Enfoque moderno: híbrido

Los sistemas más avanzados combinan ambos:

Aprenden del entorno (model-free)
Construyen representaciones internas (model-based)

👉 Resultado: eficiencia + robustez

Trade-off crítico

Model-Based → eficiencia pero riesgo de errores
Model-Free → robustez pero alto coste de datos

Impacto en el rendimiento

La elección afecta:

Velocidad de aprendizaje
Calidad de decisiones
Escalabilidad
Coste computacional

Aplicaciones reales

Robótica → Model-Based
Juegos (AlphaGo, RL avanzado) → Híbrido
Sistemas complejos → Model-Free

Conceptos relacionados

Conclusión

No hay un enfoque universalmente mejor:

Model-Based → planificación y eficiencia
Model-Free → simplicidad y robustez

El futuro está en combinar ambos enfoques.