3.17 - Alucinação em LLMs

1. ⚡ Resumo Expandido

Nesta aula, o professor explorou o fenômeno da Alucinação em Grandes Modelos de Linguagem (LLMs), desmistificando a ideia de que a IA “sabe” ou “pensa” como um humano. Foi enfatizado que LLMs são, fundamentalmente, preditores estatísticos de tokens (palavras/partes de palavras) e não bancos de dados factuais.

A alucinação ocorre quando o modelo gera informações incorretas, inventadas ou sem sentido, mas com alta fluidez e confiança (“mentir com categoria”). O professor categorizou as alucinações em Factuais (inventar fatos), Citações/Fontes (inventar referências que não existem), Estruturais (inventar código ou lógica inválida) e Contextuais (perder o fio da meada em conversas longas).

Foi discutido que, embora técnicas como RLHF (Reinforcement Learning from Human Feedback) ajudem a reduzir alucinações ao alinhar o modelo com preferências humanas, elas não eliminam o problema raiz: a falta de uma base de conhecimento factual “hard-coded”. A solução padrão-ouro mencionada para mitigar isso em produção é o RAG (Retrieval-Augmented Generation), que aterra o modelo em dados externos confiáveis.

Contexto de Mercado (SOTA): A alucinação é o principal obstáculo para a adoção de IA generativa em setores críticos (medicina, jurídico, financeiro). Ferramentas modernas de avaliação, como RAGAS ou Arize Phoenix, são usadas para medir a “taxa de alucinação” em pipelines de RAG.

2. 🔍 Deep Dive: Conceitos & Teoria

Alucinação (Hallucination)

Na Aula: O professor definiu como a geração de afirmações factualmente incorretas ou sem sentido, apresentadas com confiança. Ele usou o exemplo de um modelo inventando que a “Claudia Miller” ganhou o Nobel de Física de 2023.
Deep Dive (Pesquisa):
- Definição Técnica: Alucinação é a divergência entre o texto gerado e a realidade (no caso de alucinação extrínseca) ou a divergência entre o texto gerado e o contexto fornecido (alucinação intrínseca).
- Paper Relevante: “Survey of Hallucination in Natural Language Generation” (Ji et al., 2023). Este paper classifica alucinações e discute métricas de detecção.
- Origem: O termo foi adotado da psicologia, mas em IA refere-se a um “erro de grounding” (aterramento). O modelo “sonha” continuidades plausíveis estatisticamente, mas falsas factualmente.

Alucinação de Citação (Citation Hallucination)

Na Aula: O modelo inventa artigos, links ou autores que não existem para suportar um argumento.
Deep Dive (Pesquisa): Este é um problema crítico em modelos como o GPT-4 ou Claude quando usados para pesquisa acadêmica sem acesso à web. O modelo entende a forma de uma citação (Autor, Ano, Título), mas preenche os slots com tokens prováveis, criando “Frankensteins” bibliográficos.

Probabilidade e Próximo Token (Next Token Prediction)

Na Aula: “A IA não sabe de verdade, ela tem uma intuição estatística”.
Deep Dive (Pesquisa): LLMs são modelos autorregressivos treinados para maximizar a probabilidade $P (w_{t} ∣ w_{1 : t - 1})$ . Se o corpus de treino contém muitas fanfics sobre um tópico, o modelo pode alucinar fatos baseados nessa ficção, pois estatisticamente aqueles tokens aparecem juntos.
- Conceito Relacionado: Stochastic Parrots (Papagaios Estocásticos) - termo cunhado por Emily M. Bender et al. (2021) para descrever como LLMs apenas repetem padrões sem compreensão de significado ou verdade.

3. 🛠️ Engenharia: Arquiteturas e Agentes

Como lidar com alucinações na construção de Agentes:

Padrão: RAG (Retrieval-Augmented Generation)
- Funcionamento: Antes de responder, o agente busca documentos relevantes em uma base vetorial confiável e os insere no prompt como contexto.
- Mitigação: O prompt instrui: “Responda APENAS com base no contexto abaixo. Se não souber, diga que não sabe.” Isso reduz drasticamente a alucinação factual.
- Exemplo da Aula: O professor mencionou “trazer conhecimento” para validar a resposta.
Padrão: Self-Correction / Self-Reflection (Reflexão)
- Funcionamento: O agente gera uma resposta e, em seguida, um segundo passo (ou outro agente) critica essa resposta: “Isso é verdade? Você tem certeza?“.
- Deep Dive: O paper “Self-Refine: Iterative Refinement with Self-Feedback” (Madaan et al., 2023) mostra que LLMs podem corrigir suas próprias alucinações se solicitados a revisar seu output.
- Referência no Livro: Capítulo 4 de Agentic Design Patterns .
Padrão: Chain-of-Thought (CoT)
- Funcionamento: Pedir para o modelo “pensar passo a passo” antes de responder.
- Mitigação: Ajuda a evitar alucinações de lógica (erros de cálculo ou raciocínio), pois o modelo explicita os passos intermediários, reduzindo saltos intuitivos errados.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Paper de Survey: Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.” ACM Computing Surveys.
Conceito de Papagaios Estocásticos: Bender, E. M., et al. (2021). “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“. FAccT ‘21.
Ferramenta de Avaliação: Ragas (Retrieval Augmented Generation Assessment) - Framework para medir “Faithfulness” (Fidelidade ao contexto) e “Answer Relevance” em pipelines de RAG.
Ferramenta de Guardrails: NeMo Guardrails (NVIDIA) - Permite definir regras estritas (“Nunca dê conselhos médicos”) que interceptam e bloqueiam alucinações antes de chegarem ao usuário.

5. ⚠️ Pontos de Atenção e Trade-offs

A Ilusão da Eloquência: O professor alertou que “se parece certo, deve estar certo”. Modelos maiores (como GPT-4) são mais convincentes em suas alucinações do que modelos menores, o que é perigoso.
Temperatura: Temperaturas altas ( $> 0.7$ ) aumentam a criatividade, mas também a chance de alucinação. Para tarefas factuais, a recomendação de engenharia é usar temperature=0.
Alucinação vs. Criatividade: Em tarefas criativas (escrever um poema), a “alucinação” é desejável (é a invenção). Em tarefas factuais, é um bug. O engenheiro deve saber qual é o objetivo do agente.
Prompt Hacking: Usuários mal-intencionados podem induzir alucinações (jailbreak) pedindo para o modelo “entrar em modo DAN (Do Anything Now)” ou ignorar suas instruções de segurança.

6. 📝 Quiz Prático

Qual a diferença entre uma “alucinação intrínseca” e uma “alucinação extrínseca” em sistemas RAG?
- R: A intrínseca ocorre quando o modelo gera algo que contradiz o contexto fornecido no prompt. A extrínseca ocorre quando o modelo ignora o contexto e traz uma informação externa (do seu pré-treino) que pode ser falsa ou irrelevante para a fonte citada.
Por que modelos de linguagem têm dificuldade em citar fontes reais (URLs ou Papers) e tendem a inventá-las?
- R: Porque eles não têm acesso a um banco de dados de URLs em tempo real durante a inferência (sem tools). Eles apenas preveem qual seria a aparência provável de uma URL ou citação naquele contexto, token por token.
Como a técnica de “Grounding” (Aterramento) ajuda a combater alucinações?
- R: O Grounding conecta a geração do modelo a uma fonte de verdade verificável (como um documento recuperado via RAG ou um resultado de busca na web), forçando o modelo a usar essas informações como base para a resposta, em vez de confiar apenas em seus pesos internos.
(Desafio SOTA): Em sistemas de avaliação automática como o “LLM-as-a-Judge”, qual métrica é usada para detectar se uma resposta foi inventada pelo modelo ou se baseou no contexto fornecido?
- R: A métrica de Faithfulness (Fidelidade). Ela mede se todas as afirmações feitas na resposta podem ser inferidas logicamente a partir do contexto recuperado, penalizando informações que não estão presentes na fonte (alucinações).

Cristian Araujo

Explorer

3.17 - Alucinação em LLMs

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

Alucinação (Hallucination)

Alucinação de Citação (Citation Hallucination)

Probabilidade e Próximo Token (Next Token Prediction)

3. 🛠️ Engenharia: Arquiteturas e Agentes

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View