1. ⚡ Resumo Expandido

A aula aprofundou-se no Reinforcement Learning from Human Feedback (RLHF), a técnica padrão-ouro atual para o alinhamento de Large Language Models (LLMs). Enquanto o Pré-treinamento ensina o modelo a prever a próxima palavra (baseado em estatística e volume de dados) e o SFT (Fine-Tuning Supervisionado) ensina o formato de instrução, o RLHF refina o comportamento do modelo para se alinhar aos valores e preferências humanas (como ser útil, honesto e inofensivo - o critério HHH).

O professor descreveu o pipeline clássico de RLHF (popularizado pelo ChatGPT/GPT-4), composto por três etapas sequenciais:

  1. SFT (Supervised Fine-Tuning): O modelo aprende a responder comandos básicos.

  2. Reward Model (RM) Training: Humanos classificam (rankeiam) múltiplas respostas do modelo para a mesma pergunta. Treina-se um modelo auxiliar para prever essa preferência (recompensa).

  3. RL com PPO (Proximal Policy Optimization): O modelo de linguagem é otimizado via aprendizado por reforço para maximizar a pontuação dada pelo Reward Model, sem se desviar drasticamente de seu conhecimento original.

Contexto de Mercado (SOTA): Embora o RLHF com PPO seja a base do GPT-4 e Llama 2, o “Estado da Arte” está migrando rapidamente para métodos mais estáveis e eficientes, como o DPO (Direct Preference Optimization), que elimina a necessidade de treinar um modelo de recompensa separado, simplificando drasticamente o pipeline de engenharia.


2. 🔍 Deep Dive: Conceitos & Teoria

O Pipeline RLHF (3 Etapas)

  • Na Aula: Descrito como um processo onde humanos dão notas ou rankeiam respostas para ensinar “boas maneiras” e segurança ao modelo.

  • Deep Dive (Pesquisa): O paper seminal “Training language models to follow instructions with human feedback” (InstructGPT - Ouyang et al., 2022) formalizou este processo.

    • SFT: Maximiza a probabilidade da resposta correta (Behavior Cloning).

    • Reward Modeling: O modelo de recompensa aprende a atribuir um escalar (score) que representa a preferência humana entre pares de respostas ().

    • RL (PPO): Otimiza o LLM () para gerar respostas que maximizam a recompensa, subtraindo uma penalidade (KL Divergence) para garantir que o modelo não “alucine” ou se desvie muito do modelo inicial (SFT).

PPO (Proximal Policy Optimization)

  • Na Aula: Mencionado como o algoritmo de otimização usado na terceira etapa.

  • Deep Dive (Pesquisa): Desenvolvido pela OpenAI (Schulman et al., 2017), o PPO é um algoritmo de Policy Gradient que evita atualizações destrutivas nos pesos da rede. Ele utiliza uma função objetivo “clipada” (clipped surrogate objective) que impede que a nova política mude drasticamente em relação à antiga em um único passo de treino, garantindo estabilidade numérica — crucial para treinar LLMs sensíveis.

DPO (Direct Preference Optimization) - O Novo Padrão

  • Nota do Pesquisador: O professor focou no PPO, mas o mercado (Hugging Face, Mistral AI) está adotando massivamente o DPO.

  • Deep Dive (Pesquisa): Introduzido por Rafailov et al. (2023), o DPO demonstra que o problema de RLHF pode ser resolvido analiticamente como um problema de classificação simples.

    • Vantagem: Remove a necessidade de treinar um Reward Model separado e de usar PPO (que é instável e complexo). O DPO otimiza a política diretamente nos dados de preferência.

    • Referência no Livro: O Capítulo 9 de Agentic Design Patterns menciona brevemente o DPO como uma alternativa mais simples para alinhamento.


3. 🛠️ Engenharia: Arquiteturas e Agentes

A engenharia de RLHF é complexa e raramente feita “do zero”. Hoje, utilizamos bibliotecas especializadas.

  • Framework: TRL (Transformer Reinforcement Learning)

    • Funcionamento: Biblioteca da Hugging Face que integra SFT, Reward Modeling e PPO/DPO.

    • Implementação Prática:

      Python

      # Exemplo conceitual de treino com DPO (SOTA)
      from trl import DPOTrainer
      trainer = DPOTrainer(
          model=model_base,
          ref_model=model_ref, # Modelo congelado para evitar desvios (KL)
          train_dataset=dataset_preferencias, # Colunas: "prompt", "chosen", "rejected"
          args=training_args
      )
      trainer.train()
      
    • Aplicação: Usado para criar modelos como Zephyr e Llama-3-Instruct.

  • Padrão: LLM-as-a-Judge (LLM como Juiz)

    • Na Aula: O professor mencionou a subjetividade humana na avaliação.

    • Engenharia: Em vez de humanos, usamos um modelo forte (ex: GPT-4) para atuar como o “Humano” e gerar os dados de preferência para treinar modelos menores. Isso é chamado de RLAIF (Reinforcement Learning from AI Feedback), proposto pela Anthropic no paper Constitutional AI.

    • Referência Externa: Documentado no Capítulo 19 do livro sob “Evaluation and Monitoring”, onde um LLM avalia a qualidade das respostas de outro.


4. 📚 Bibliografia Estendida e Referências (Pesquisa)

  • Paper Seminal (InstructGPT): Ouyang, L., et al. (2022). “Training language models to follow instructions with human feedback.” arXiv:2203.02155. A base de tudo o que foi discutido na aula.

  • Paper SOTA (DPO): Rafailov, R., et al. (2023). “Direct Preference Optimization: Your Language Model is Secretly a Reward Model.” arXiv:2305.18290. Leitura obrigatória para engenharia moderna.

  • Paper RLAIF: Lee, H., et al. (2023). “RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback.” - Mostra que feedback de IA pode ser tão bom quanto humano.

  • Ferramenta: Hugging Face TRL (Transformer Reinforcement Learning). Documentação oficial para implementar SFT, RM e PPO/DPO.


5. ⚠️ Pontos de Atenção e Trade-offs

  1. Custo e Complexidade: O professor alertou que o RLHF (especialmente com PPO) é caro e complexo. Requer o carregamento de múltiplos modelos na VRAM (Modelo Base, Modelo de Referência, Reward Model, Value Head), tornando o treino inviável em hardware modesto.

  2. Taxa de Alinhamento (Alignment Tax): Modelos pesadamente alinhados com RLHF podem perder criatividade ou desempenho em tarefas de nicho (ex: codificação pura), tornando-se “chatos” ou recusando respostas inofensivas por excesso de cautela.

  3. Viés do Rotulador: O professor enfatizou a subjetividade . Se os humanos que rankeiam as respostas têm viés cultural ou político, o modelo irá incorporá-lo e amplificá-lo.

  4. Reward Hacking: O modelo pode aprender a “enganar” o Reward Model, gerando respostas que ganham pontuação alta mas não fazem sentido (ex: respostas longas e verborrágicas costumam ser preferidas por RMs mal treinados, mesmo que incorretas).


6. 📝 Quiz Prático

  1. No contexto de RLHF, qual é a função do “Reward Model” (Modelo de Recompensa)?

    • R: Atuar como um juiz automatizado que prevê a preferência humana, atribuindo uma pontuação (score) a uma resposta gerada pelo LLM, guiando assim o processo de otimização.
  2. Por que é necessário manter uma cópia do modelo original (ou usar penalidade KL) durante o treinamento com PPO?

    • R: Para evitar o “esquecimento catastrófico” ou “mode collapse”, garantindo que o modelo otimizado não se desvie excessivamente da distribuição de probabilidade original e comece a gerar texto incoerente (gibberish).
  3. Qual a diferença fundamental entre SFT (Fine-Tuning Supervisionado) e RLHF?

    • R: O SFT ensina o modelo a gerar respostas baseadas em exemplos (imitação), enquanto o RLHF ensina o modelo a otimizar suas respostas baseadas em feedback de qualidade (preferência/valor), refinando o comportamento e segurança.
  4. (Desafio SOTA): Como o método DPO (Direct Preference Optimization) simplifica o pipeline tradicional de RLHF com PPO?

    • R: O DPO elimina a necessidade de treinar um Reward Model separado e de usar algoritmos complexos de Reinforcement Learning (como PPO). Ele usa uma função de perda (loss function) derivada matematicamente que otimiza a política diretamente nos dados de preferência (chosen/rejected), tornando o treino mais estável e leve.