3.15 - RLHF - Reinforcement Learning from Human Feedback

1. ⚡ Resumo Expandido

A aula aprofundou-se no Reinforcement Learning from Human Feedback (RLHF), a técnica padrão-ouro atual para o alinhamento de Large Language Models (LLMs). Enquanto o Pré-treinamento ensina o modelo a prever a próxima palavra (baseado em estatística e volume de dados) e o SFT (Fine-Tuning Supervisionado) ensina o formato de instrução, o RLHF refina o comportamento do modelo para se alinhar aos valores e preferências humanas (como ser útil, honesto e inofensivo - o critério HHH).

O professor descreveu o pipeline clássico de RLHF (popularizado pelo ChatGPT/GPT-4), composto por três etapas sequenciais:

SFT (Supervised Fine-Tuning): O modelo aprende a responder comandos básicos.
Reward Model (RM) Training: Humanos classificam (rankeiam) múltiplas respostas do modelo para a mesma pergunta. Treina-se um modelo auxiliar para prever essa preferência (recompensa).
RL com PPO (Proximal Policy Optimization): O modelo de linguagem é otimizado via aprendizado por reforço para maximizar a pontuação dada pelo Reward Model, sem se desviar drasticamente de seu conhecimento original.

Contexto de Mercado (SOTA): Embora o RLHF com PPO seja a base do GPT-4 e Llama 2, o “Estado da Arte” está migrando rapidamente para métodos mais estáveis e eficientes, como o DPO (Direct Preference Optimization), que elimina a necessidade de treinar um modelo de recompensa separado, simplificando drasticamente o pipeline de engenharia.

2. 🔍 Deep Dive: Conceitos & Teoria

O Pipeline RLHF (3 Etapas)

Na Aula: Descrito como um processo onde humanos dão notas ou rankeiam respostas para ensinar “boas maneiras” e segurança ao modelo.
Deep Dive (Pesquisa): O paper seminal “Training language models to follow instructions with human feedback” (InstructGPT - Ouyang et al., 2022) formalizou este processo.
- SFT: Maximiza a probabilidade da resposta correta (Behavior Cloning).
- Reward Modeling: O modelo de recompensa $r_{θ} (x, y)$ aprende a atribuir um escalar (score) que representa a preferência humana entre pares de respostas ( $y_{w} > y_{l}$ ).
- RL (PPO): Otimiza o LLM ( $π_{ϕ}$ ) para gerar respostas que maximizam a recompensa, subtraindo uma penalidade (KL Divergence) para garantir que o modelo não “alucine” ou se desvie muito do modelo inicial (SFT).

PPO (Proximal Policy Optimization)

Na Aula: Mencionado como o algoritmo de otimização usado na terceira etapa.
Deep Dive (Pesquisa): Desenvolvido pela OpenAI (Schulman et al., 2017), o PPO é um algoritmo de Policy Gradient que evita atualizações destrutivas nos pesos da rede. Ele utiliza uma função objetivo “clipada” (clipped surrogate objective) que impede que a nova política mude drasticamente em relação à antiga em um único passo de treino, garantindo estabilidade numérica — crucial para treinar LLMs sensíveis.

DPO (Direct Preference Optimization) - O Novo Padrão

Nota do Pesquisador: O professor focou no PPO, mas o mercado (Hugging Face, Mistral AI) está adotando massivamente o DPO.
Deep Dive (Pesquisa): Introduzido por Rafailov et al. (2023), o DPO demonstra que o problema de RLHF pode ser resolvido analiticamente como um problema de classificação simples.
- Vantagem: Remove a necessidade de treinar um Reward Model separado e de usar PPO (que é instável e complexo). O DPO otimiza a política diretamente nos dados de preferência.
- Referência no Livro: O Capítulo 9 de Agentic Design Patterns menciona brevemente o DPO como uma alternativa mais simples para alinhamento.

3. 🛠️ Engenharia: Arquiteturas e Agentes

A engenharia de RLHF é complexa e raramente feita “do zero”. Hoje, utilizamos bibliotecas especializadas.

Framework: TRL (Transformer Reinforcement Learning)

Funcionamento: Biblioteca da Hugging Face que integra SFT, Reward Modeling e PPO/DPO.

Implementação Prática:

Python

# Exemplo conceitual de treino com DPO (SOTA)
from trl import DPOTrainer
trainer = DPOTrainer(
    model=model_base,
    ref_model=model_ref, # Modelo congelado para evitar desvios (KL)
    train_dataset=dataset_preferencias, # Colunas: "prompt", "chosen", "rejected"
    args=training_args
)
trainer.train()

Aplicação: Usado para criar modelos como Zephyr e Llama-3-Instruct.

Padrão: LLM-as-a-Judge (LLM como Juiz)
- Na Aula: O professor mencionou a subjetividade humana na avaliação.
- Engenharia: Em vez de humanos, usamos um modelo forte (ex: GPT-4) para atuar como o “Humano” e gerar os dados de preferência para treinar modelos menores. Isso é chamado de RLAIF (Reinforcement Learning from AI Feedback), proposto pela Anthropic no paper Constitutional AI.
- Referência Externa: Documentado no Capítulo 19 do livro sob “Evaluation and Monitoring”, onde um LLM avalia a qualidade das respostas de outro.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Paper Seminal (InstructGPT): Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback.” arXiv:2203.02155. A base de tudo o que foi discutido na aula.
Paper SOTA (DPO): Rafailov, R., et al. (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” arXiv:2305.18290. Leitura obrigatória para engenharia moderna.
Paper RLAIF: Lee, H., et al. (2023). “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback.” - Mostra que feedback de IA pode ser tão bom quanto humano.
Ferramenta: Hugging Face TRL (Transformer Reinforcement Learning). Documentação oficial para implementar SFT, RM e PPO/DPO.

5. ⚠️ Pontos de Atenção e Trade-offs

Custo e Complexidade: O professor alertou que o RLHF (especialmente com PPO) é caro e complexo. Requer o carregamento de múltiplos modelos na VRAM (Modelo Base, Modelo de Referência, Reward Model, Value Head), tornando o treino inviável em hardware modesto.
Taxa de Alinhamento (Alignment Tax): Modelos pesadamente alinhados com RLHF podem perder criatividade ou desempenho em tarefas de nicho (ex: codificação pura), tornando-se “chatos” ou recusando respostas inofensivas por excesso de cautela.
Viés do Rotulador: O professor enfatizou a subjetividade . Se os humanos que rankeiam as respostas têm viés cultural ou político, o modelo irá incorporá-lo e amplificá-lo.
Reward Hacking: O modelo pode aprender a “enganar” o Reward Model, gerando respostas que ganham pontuação alta mas não fazem sentido (ex: respostas longas e verborrágicas costumam ser preferidas por RMs mal treinados, mesmo que incorretas).

6. 📝 Quiz Prático

No contexto de RLHF, qual é a função do “Reward Model” (Modelo de Recompensa)?
- R: Atuar como um juiz automatizado que prevê a preferência humana, atribuindo uma pontuação (score) a uma resposta gerada pelo LLM, guiando assim o processo de otimização.
Por que é necessário manter uma cópia do modelo original (ou usar penalidade KL) durante o treinamento com PPO?
- R: Para evitar o “esquecimento catastrófico” ou “mode collapse”, garantindo que o modelo otimizado não se desvie excessivamente da distribuição de probabilidade original e comece a gerar texto incoerente (gibberish).
Qual a diferença fundamental entre SFT (Fine-Tuning Supervisionado) e RLHF?
- R: O SFT ensina o modelo a gerar respostas baseadas em exemplos (imitação), enquanto o RLHF ensina o modelo a otimizar suas respostas baseadas em feedback de qualidade (preferência/valor), refinando o comportamento e segurança.
(Desafio SOTA): Como o método DPO (Direct Preference Optimization) simplifica o pipeline tradicional de RLHF com PPO?
- R: O DPO elimina a necessidade de treinar um Reward Model separado e de usar algoritmos complexos de Reinforcement Learning (como PPO). Ele usa uma função de perda (loss function) derivada matematicamente que otimiza a política diretamente nos dados de preferência (chosen/rejected), tornando o treino mais estável e leve.

Cristian Araujo

Explorer

3.15 - RLHF - Reinforcement Learning from Human Feedback

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

O Pipeline RLHF (3 Etapas)

PPO (Proximal Policy Optimization)

DPO (Direct Preference Optimization) - O Novo Padrão

3. 🛠️ Engenharia: Arquiteturas e Agentes

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View