1. ⚡ Resumo Expandido
A aula aprofundou-se no Reinforcement Learning from Human Feedback (RLHF), a técnica padrão-ouro atual para o alinhamento de Large Language Models (LLMs). Enquanto o Pré-treinamento ensina o modelo a prever a próxima palavra (baseado em estatística e volume de dados) e o SFT (Fine-Tuning Supervisionado) ensina o formato de instrução, o RLHF refina o comportamento do modelo para se alinhar aos valores e preferências humanas (como ser útil, honesto e inofensivo - o critério HHH).
O professor descreveu o pipeline clássico de RLHF (popularizado pelo ChatGPT/GPT-4), composto por três etapas sequenciais:
-
SFT (Supervised Fine-Tuning): O modelo aprende a responder comandos básicos.
-
Reward Model (RM) Training: Humanos classificam (rankeiam) múltiplas respostas do modelo para a mesma pergunta. Treina-se um modelo auxiliar para prever essa preferência (recompensa).
-
RL com PPO (Proximal Policy Optimization): O modelo de linguagem é otimizado via aprendizado por reforço para maximizar a pontuação dada pelo Reward Model, sem se desviar drasticamente de seu conhecimento original.
Contexto de Mercado (SOTA): Embora o RLHF com PPO seja a base do GPT-4 e Llama 2, o “Estado da Arte” está migrando rapidamente para métodos mais estáveis e eficientes, como o DPO (Direct Preference Optimization), que elimina a necessidade de treinar um modelo de recompensa separado, simplificando drasticamente o pipeline de engenharia.
2. 🔍 Deep Dive: Conceitos & Teoria
O Pipeline RLHF (3 Etapas)
-
Na Aula: Descrito como um processo onde humanos dão notas ou rankeiam respostas para ensinar “boas maneiras” e segurança ao modelo.
-
Deep Dive (Pesquisa): O paper seminal “Training language models to follow instructions with human feedback” (InstructGPT - Ouyang et al., 2022) formalizou este processo.
-
SFT: Maximiza a probabilidade da resposta correta (Behavior Cloning).
-
Reward Modeling: O modelo de recompensa aprende a atribuir um escalar (score) que representa a preferência humana entre pares de respostas ().
-
RL (PPO): Otimiza o LLM () para gerar respostas que maximizam a recompensa, subtraindo uma penalidade (KL Divergence) para garantir que o modelo não “alucine” ou se desvie muito do modelo inicial (SFT).
-
PPO (Proximal Policy Optimization)
-
Na Aula: Mencionado como o algoritmo de otimização usado na terceira etapa.
-
Deep Dive (Pesquisa): Desenvolvido pela OpenAI (Schulman et al., 2017), o PPO é um algoritmo de Policy Gradient que evita atualizações destrutivas nos pesos da rede. Ele utiliza uma função objetivo “clipada” (clipped surrogate objective) que impede que a nova política mude drasticamente em relação à antiga em um único passo de treino, garantindo estabilidade numérica — crucial para treinar LLMs sensíveis.
DPO (Direct Preference Optimization) - O Novo Padrão
-
Nota do Pesquisador: O professor focou no PPO, mas o mercado (Hugging Face, Mistral AI) está adotando massivamente o DPO.
-
Deep Dive (Pesquisa): Introduzido por Rafailov et al. (2023), o DPO demonstra que o problema de RLHF pode ser resolvido analiticamente como um problema de classificação simples.
-
Vantagem: Remove a necessidade de treinar um Reward Model separado e de usar PPO (que é instável e complexo). O DPO otimiza a política diretamente nos dados de preferência.
-
Referência no Livro: O Capítulo 9 de Agentic Design Patterns menciona brevemente o DPO como uma alternativa mais simples para alinhamento.
-
3. 🛠️ Engenharia: Arquiteturas e Agentes
A engenharia de RLHF é complexa e raramente feita “do zero”. Hoje, utilizamos bibliotecas especializadas.
-
Framework: TRL (Transformer Reinforcement Learning)
-
Funcionamento: Biblioteca da Hugging Face que integra SFT, Reward Modeling e PPO/DPO.
-
Implementação Prática:
Python
# Exemplo conceitual de treino com DPO (SOTA) from trl import DPOTrainer trainer = DPOTrainer( model=model_base, ref_model=model_ref, # Modelo congelado para evitar desvios (KL) train_dataset=dataset_preferencias, # Colunas: "prompt", "chosen", "rejected" args=training_args ) trainer.train() -
Aplicação: Usado para criar modelos como Zephyr e Llama-3-Instruct.
-
-
Padrão: LLM-as-a-Judge (LLM como Juiz)
-
Na Aula: O professor mencionou a subjetividade humana na avaliação.
-
Engenharia: Em vez de humanos, usamos um modelo forte (ex: GPT-4) para atuar como o “Humano” e gerar os dados de preferência para treinar modelos menores. Isso é chamado de RLAIF (Reinforcement Learning from AI Feedback), proposto pela Anthropic no paper Constitutional AI.
-
Referência Externa: Documentado no Capítulo 19 do livro sob “Evaluation and Monitoring”, onde um LLM avalia a qualidade das respostas de outro.
-
4. 📚 Bibliografia Estendida e Referências (Pesquisa)
-
Paper Seminal (InstructGPT): Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback.” arXiv:2203.02155. A base de tudo o que foi discutido na aula.
-
Paper SOTA (DPO): Rafailov, R., et al. (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” arXiv:2305.18290. Leitura obrigatória para engenharia moderna.
-
Paper RLAIF: Lee, H., et al. (2023). “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback.” - Mostra que feedback de IA pode ser tão bom quanto humano.
-
Ferramenta: Hugging Face TRL (Transformer Reinforcement Learning). Documentação oficial para implementar SFT, RM e PPO/DPO.
5. ⚠️ Pontos de Atenção e Trade-offs
-
Custo e Complexidade: O professor alertou que o RLHF (especialmente com PPO) é caro e complexo. Requer o carregamento de múltiplos modelos na VRAM (Modelo Base, Modelo de Referência, Reward Model, Value Head), tornando o treino inviável em hardware modesto.
-
Taxa de Alinhamento (Alignment Tax): Modelos pesadamente alinhados com RLHF podem perder criatividade ou desempenho em tarefas de nicho (ex: codificação pura), tornando-se “chatos” ou recusando respostas inofensivas por excesso de cautela.
-
Viés do Rotulador: O professor enfatizou a subjetividade . Se os humanos que rankeiam as respostas têm viés cultural ou político, o modelo irá incorporá-lo e amplificá-lo.
-
Reward Hacking: O modelo pode aprender a “enganar” o Reward Model, gerando respostas que ganham pontuação alta mas não fazem sentido (ex: respostas longas e verborrágicas costumam ser preferidas por RMs mal treinados, mesmo que incorretas).
6. 📝 Quiz Prático
-
No contexto de RLHF, qual é a função do “Reward Model” (Modelo de Recompensa)?
- R: Atuar como um juiz automatizado que prevê a preferência humana, atribuindo uma pontuação (score) a uma resposta gerada pelo LLM, guiando assim o processo de otimização.
-
Por que é necessário manter uma cópia do modelo original (ou usar penalidade KL) durante o treinamento com PPO?
- R: Para evitar o “esquecimento catastrófico” ou “mode collapse”, garantindo que o modelo otimizado não se desvie excessivamente da distribuição de probabilidade original e comece a gerar texto incoerente (gibberish).
-
Qual a diferença fundamental entre SFT (Fine-Tuning Supervisionado) e RLHF?
- R: O SFT ensina o modelo a gerar respostas baseadas em exemplos (imitação), enquanto o RLHF ensina o modelo a otimizar suas respostas baseadas em feedback de qualidade (preferência/valor), refinando o comportamento e segurança.
-
(Desafio SOTA): Como o método DPO (Direct Preference Optimization) simplifica o pipeline tradicional de RLHF com PPO?
- R: O DPO elimina a necessidade de treinar um Reward Model separado e de usar algoritmos complexos de Reinforcement Learning (como PPO). Ele usa uma função de perda (loss function) derivada matematicamente que otimiza a política diretamente nos dados de preferência (chosen/rejected), tornando o treino mais estável e leve.