Introducción
En el aprendizaje por refuerzo, los agentes pueden aprender de dos formas fundamentales:
👉 Model-Based RL (basado en modelo)
👉 Model-Free RL (sin modelo)
Esta distinción define cómo el agente entiende su entorno y cómo toma decisiones.
- Algunos agentes construyen un modelo del mundo
- Otros aprenden directamente de la experiencia
Elegir el enfoque correcto tiene un impacto profundo en:
- Eficiencia de aprendizaje
- Capacidad de planificación
- Complejidad del sistema
¿Qué es Model-Based RL?
El Model-Based RL implica que el agente aprende o utiliza un modelo del entorno.
👉 Este modelo predice:
- Cómo evoluciona el entorno (transiciones)
- Qué recompensas se obtienen
Características:
- Capacidad de planificación
- Uso de simulaciones internas
- Aprendizaje más eficiente en datos
Ejemplo:
Un agente que simula posibles futuros antes de tomar una decisión.
¿Qué es Model-Free RL?
El Model-Free RL aprende directamente de la experiencia sin modelar el entorno.
👉 El agente aprende:
- Qué acciones tomar
- Basado en recompensas observadas
Características:
- No necesita modelo del entorno
- Aprendizaje directo
- Mayor simplicidad
Ejemplo:
Un agente que aprende por ensayo y error sin entender cómo funciona el entorno.
Comparación directa
| Aspecto | Model-Based RL | Model-Free RL |
|---|---|---|
| Modelo del entorno | Sí | No |
| Planificación | Sí | No |
| Eficiencia de datos | Alta | Baja |
| Complejidad | Alta | Baja |
| Velocidad de entrenamiento | Más rápida (con buen modelo) | Más lenta |
| Robustez | Dependiente del modelo | Alta |
Ventajas y desventajas
Model-Based RL
Ventajas:
- Mayor eficiencia de datos
- Permite planificación
- Mejor en entornos con pocos datos
- Puede anticipar consecuencias
Desventajas:
- Difícil de construir un buen modelo
- Sensible a errores del modelo
- Mayor complejidad
Model-Free RL
Ventajas:
- Más simple
- No requiere conocimiento del entorno
- Más robusto ante errores de modelado
Desventajas:
- Baja eficiencia de datos
- Requiere muchas interacciones
- No puede planificar explícitamente
¿Cuándo usar cada uno?
Usa Model-Based RL si:
- Tienes pocos datos
- Puedes modelar el entorno
- Necesitas planificación
👉 Ejemplo: robótica, simulaciones físicas
Usa Model-Free RL si:
- El entorno es complejo o desconocido
- Tienes acceso a muchos datos
- Buscas simplicidad
👉 Ejemplo: juegos, entornos altamente complejos
Insight clave
👉 Model-Based = pensar antes de actuar
👉 Model-Free = aprender actuando
Enfoque moderno: híbrido
Los sistemas más avanzados combinan ambos:
- Aprenden del entorno (model-free)
- Construyen representaciones internas (model-based)
👉 Resultado: eficiencia + robustez
Trade-off crítico
- Model-Based → eficiencia pero riesgo de errores
- Model-Free → robustez pero alto coste de datos
Impacto en el rendimiento
La elección afecta:
- Velocidad de aprendizaje
- Calidad de decisiones
- Escalabilidad
- Coste computacional
Aplicaciones reales
- Robótica → Model-Based
- Juegos (AlphaGo, RL avanzado) → Híbrido
- Sistemas complejos → Model-Free
Conceptos relacionados
Conclusión
No hay un enfoque universalmente mejor:
- Model-Based → planificación y eficiencia
- Model-Free → simplicidad y robustez
El futuro está en combinar ambos enfoques.