3.18 - Estratégias de Mitigação de Alucinação em LLMs

1. ⚡ Resumo Expandido

Esta aula focou em estratégias práticas de Engenharia de Prompt para combater as alucinações em LLMs, um problema crítico onde o modelo inventa fatos, fontes ou citações com alta confiança. O professor destacou que, apesar da evolução dos modelos, a alucinação (seja factual, de fonte ou estrutural) persiste devido à natureza probabilística da IA, que prioriza a fluência sobre a veracidade.

Foram apresentadas quatro estratégias principais de mitigação via prompt:

Solicitação de Evidência (Evidence Extraction): Exigir que o modelo liste fontes confiáveis antes de responder.
Instrução de Cautela (Negative Constraints): Comandos explícitos como “Se você não souber, diga que não sabe” ou “Não invente fatos”.
Chain of Thought (CoT): Pedir para o modelo “explicar o raciocínio passo a passo” antes da conclusão, o que reduz erros de lógica.
Adoção de Persona (Persona Pattern): Delimitar o escopo do modelo (ex: “Você é um assistente jurídico conservador que só usa dados até 2023”).

Contexto de Mercado (SOTA): A aula citou casos reais e recentes (no contexto de 2025/2026) de advogados sancionados por usarem IA sem revisão, como o caso Garner v. Kadince em Utah (advogado Richard Bednar) e o caso do escritório Butler Snow no Alabama. Esses exemplos ilustram o risco financeiro e reputacional da alucinação não verificada.

2. 🔍 Deep Dive: Conceitos & Teoria

Estratégias de Mitigação (Prompt Engineering)

Na Aula: O professor sugeriu “pedir fontes”, “instrução de negativa” e “pensar passo a passo”.
Deep Dive (Pesquisa):
- Chain of Thought (CoT): Introduzido por Wei et al. (2022), o CoT melhora o raciocínio complexo ao decompor problemas. Pesquisas recentes (ex: Amazon Science, 2025) mostram que o CoT também ajuda na detecção de alucinações, pois o modelo muitas vezes “se denuncia” no raciocínio intermediário antes de gerar a resposta final falsa.
- Chain-of-Verification (CoVe): Um método mais avançado onde o modelo gera a resposta, depois gera perguntas de verificação para si mesmo e corrige a resposta original baseada nessas verificações.
- Grounding (Aterramento): A técnica de forçar o modelo a responder apenas com base em um texto fornecido (RAG) é a forma mais eficaz de Evidence Extraction.

Tipos de Alucinação

Na Aula: Factual (inventar fatos), Citação (inventar fontes), Estrutural (código que não roda).
Deep Dive (Pesquisa):
- Alucinação Intrínseca: Contradiz a fonte fornecida no prompt.
- Alucinação Extrínseca: Inventa informações que não estão na fonte (mas podem ser “verdadeiras” ou “falsas” no mundo real). O perigo maior é a alucinação de citação (ex: Royer v. Nelson), onde o modelo cria uma jurisprudência que parece real (formatada corretamente) mas não existe.

3. 🛠️ Engenharia: Arquiteturas e Agentes

Padrão: Guardrails de Segurança
- Funcionamento: Implementação de camadas de software que interceptam o prompt do usuário e a resposta do modelo. Se o modelo violar regras (ex: inventar uma URL que retorna 404 ou citar um caso inexistente), o Guardrail bloqueia a resposta.
- Exemplo da Aula: O professor mencionou checar se as URLs existem.
- Ferramentas de Mercado: NVIDIA NeMo Guardrails e Guardrails AI são bibliotecas que permitem definir regras como “hallucination check” (verificar fatos contra uma base de conhecimento) programaticamente.
Padrão: LLM-as-a-Judge para Auto-Correção
- Funcionamento: Usar um segundo LLM (ou o mesmo em uma nova chamada) para criticar a resposta anterior. “Você tem certeza que o caso Royer v. Nelson existe? Verifique novamente.”
- Aplicação: Em agentes autônomos, isso é implementado como um loop de “Reflexão” antes da entrega final.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Casos Jurídicos Reais (Hallucination Lawsuits):
- Garner v. Kadince (Utah, 2025): O advogado Richard Bednar foi sancionado por citar o caso inexistente Royer v. Nelson, gerado pelo ChatGPT.
- Butler Snow LLP (Alabama, 2025): Advogados do escritório foram sancionados e removidos de um caso (Johnson v. Dunn) por apresentarem citações falsas geradas por IA.
- Mata v. Avianca (NY, 2023): O caso clássico do advogado Steven Schwartz que citou casos falsos como Varghese v. China Southern Airlines.
Paper Recomendado: Wei, J., et al. (2022). “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.” - A origem do CoT.
Paper de Mitigação: Dhuliawala, S., et al. (2023). “Chain-of-Verification Reduces Hallucination in Large Language Models.” - Explica como fazer o modelo se auto-corrigir.

5. ⚠️ Pontos de Atenção e Trade-offs

Alucinação de Fontes: O professor alertou que pedir fontes pode ser um “tiro no pé” se não houver acesso à web (RAG). O modelo pode inventar o fato E a fonte para sustentá-lo (ex: criar um link do New York Times que não existe).
Excesso de Confiança: Modelos mais novos e alinhados tendem a ser mais “convincentes” em suas mentiras, tornando a detecção humana mais difícil sem verificação cruzada.
Custo de Verificação: Implementar loops de auto-correção ou CoT aumenta o custo de inferência (mais tokens gerados) e a latência, o que pode ser proibitivo em aplicações de tempo real.
Falsa Segurança: Instruções como “Não alucine” ajudam, mas não garantem 100% de veracidade. Em domínios de alto risco (jurídico, médico), a validação humana ou via RAG é obrigatória.

6. 📝 Quiz Prático

Por que a estratégia de “Chain of Thought” (pensar passo a passo) ajuda a reduzir alucinações?
- R: Porque força o modelo a explicitar seu raciocínio lógico antes de concluir. Isso permite que o modelo (e o usuário) identifique falhas de lógica ou falta de informação antes que a resposta final errada seja gerada.
No caso Garner v. Kadince (Utah, 2025), qual foi o erro fundamental cometido pelo advogado Richard Bednar ao usar IA?
- R: Ele utilizou uma ferramenta de IA generativa (ChatGPT) para pesquisa de jurisprudência e não verificou a existência real dos casos citados (como Royer v. Nelson), submetendo citações falsas ao tribunal.
Qual é o risco da técnica de “Solicitação de Evidência” (pedir fontes) em um modelo sem acesso à internet ou RAG?
- R: O modelo pode sofrer de “Alucinação de Citação”, inventando referências bibliográficas, autores ou URLs que parecem reais (formato correto) mas não existem, para dar credibilidade à sua resposta falsa.
(Desafio SOTA): O que é a técnica “Chain-of-Verification” (CoVe) e como ela difere do Chain-of-Thought simples?
- R: Enquanto o CoT foca no raciocínio lógico linear para chegar a uma resposta, o CoVe adiciona uma etapa explícita de verificação após a geração inicial. O modelo gera perguntas de fact-checking sobre sua própria resposta, responde a elas para verificar a veracidade, e então reescreve a resposta final corrigida se necessário.

Cristian Araujo

Explorer

3.18 - Estratégias de Mitigação de Alucinação em LLMs

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

Estratégias de Mitigação (Prompt Engineering)

Tipos de Alucinação

3. 🛠️ Engenharia: Arquiteturas e Agentes

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View