Ajuste con Retroalimentación Humana (RLHF)

Definición breve

RLHF (Reinforcement Learning from Human Feedback) es un método para alinear modelos de lenguaje con preferencias humanas.

Explicación del concepto

Los humanos evalúan respuestas generadas por el modelo y entrenan un modelo de recompensa.

Cómo funciona

El modelo se optimiza utilizando algoritmos de aprendizaje por refuerzo.

Por qué es importante

RLHF mejora la seguridad, utilidad y coherencia de los modelos.

Ejemplo conceptual

Los evaluadores humanos clasifican varias respuestas generadas por un modelo.

Ejemplo en Python

reward = reward_model(response)

Conceptos relacionados

Resumen

RLHF permite entrenar modelos de lenguaje alineados con preferencias humanas.