1. ⚡ Resumo Expandido

Nesta aula, o professor explorou o fenômeno da Alucinação em Grandes Modelos de Linguagem (LLMs), desmistificando a ideia de que a IA “sabe” ou “pensa” como um humano. Foi enfatizado que LLMs são, fundamentalmente, preditores estatísticos de tokens (palavras/partes de palavras) e não bancos de dados factuais.

A alucinação ocorre quando o modelo gera informações incorretas, inventadas ou sem sentido, mas com alta fluidez e confiança (“mentir com categoria”). O professor categorizou as alucinações em Factuais (inventar fatos), Citações/Fontes (inventar referências que não existem), Estruturais (inventar código ou lógica inválida) e Contextuais (perder o fio da meada em conversas longas).

Foi discutido que, embora técnicas como RLHF (Reinforcement Learning from Human Feedback) ajudem a reduzir alucinações ao alinhar o modelo com preferências humanas, elas não eliminam o problema raiz: a falta de uma base de conhecimento factual “hard-coded”. A solução padrão-ouro mencionada para mitigar isso em produção é o RAG (Retrieval-Augmented Generation), que aterra o modelo em dados externos confiáveis.

Contexto de Mercado (SOTA): A alucinação é o principal obstáculo para a adoção de IA generativa em setores críticos (medicina, jurídico, financeiro). Ferramentas modernas de avaliação, como RAGAS ou Arize Phoenix, são usadas para medir a “taxa de alucinação” em pipelines de RAG.


2. 🔍 Deep Dive: Conceitos & Teoria

Alucinação (Hallucination)

  • Na Aula: O professor definiu como a geração de afirmações factualmente incorretas ou sem sentido, apresentadas com confiança. Ele usou o exemplo de um modelo inventando que a “Claudia Miller” ganhou o Nobel de Física de 2023.

  • Deep Dive (Pesquisa):

    • Definição Técnica: Alucinação é a divergência entre o texto gerado e a realidade (no caso de alucinação extrínseca) ou a divergência entre o texto gerado e o contexto fornecido (alucinação intrínseca).

    • Paper Relevante: “Survey of Hallucination in Natural Language Generation” (Ji et al., 2023). Este paper classifica alucinações e discute métricas de detecção.

    • Origem: O termo foi adotado da psicologia, mas em IA refere-se a um “erro de grounding” (aterramento). O modelo “sonha” continuidades plausíveis estatisticamente, mas falsas factualmente.

Alucinação de Citação (Citation Hallucination)

  • Na Aula: O modelo inventa artigos, links ou autores que não existem para suportar um argumento.

  • Deep Dive (Pesquisa): Este é um problema crítico em modelos como o GPT-4 ou Claude quando usados para pesquisa acadêmica sem acesso à web. O modelo entende a forma de uma citação (Autor, Ano, Título), mas preenche os slots com tokens prováveis, criando “Frankensteins” bibliográficos.

Probabilidade e Próximo Token (Next Token Prediction)

  • Na Aula: “A IA não sabe de verdade, ela tem uma intuição estatística”.

  • Deep Dive (Pesquisa): LLMs são modelos autorregressivos treinados para maximizar a probabilidade . Se o corpus de treino contém muitas fanfics sobre um tópico, o modelo pode alucinar fatos baseados nessa ficção, pois estatisticamente aqueles tokens aparecem juntos.

    • Conceito Relacionado: Stochastic Parrots (Papagaios Estocásticos) - termo cunhado por Emily M. Bender et al. (2021) para descrever como LLMs apenas repetem padrões sem compreensão de significado ou verdade.

3. 🛠️ Engenharia: Arquiteturas e Agentes

Como lidar com alucinações na construção de Agentes:

  • Padrão: RAG (Retrieval-Augmented Generation)

    • Funcionamento: Antes de responder, o agente busca documentos relevantes em uma base vetorial confiável e os insere no prompt como contexto.

    • Mitigação: O prompt instrui: “Responda APENAS com base no contexto abaixo. Se não souber, diga que não sabe.” Isso reduz drasticamente a alucinação factual.

    • Exemplo da Aula: O professor mencionou “trazer conhecimento” para validar a resposta.

  • Padrão: Self-Correction / Self-Reflection (Reflexão)

    • Funcionamento: O agente gera uma resposta e, em seguida, um segundo passo (ou outro agente) critica essa resposta: “Isso é verdade? Você tem certeza?“.

    • Deep Dive: O paper “Self-Refine: Iterative Refinement with Self-Feedback” (Madaan et al., 2023) mostra que LLMs podem corrigir suas próprias alucinações se solicitados a revisar seu output.

    • Referência no Livro: Capítulo 4 de Agentic Design Patterns .

  • Padrão: Chain-of-Thought (CoT)

    • Funcionamento: Pedir para o modelo “pensar passo a passo” antes de responder.

    • Mitigação: Ajuda a evitar alucinações de lógica (erros de cálculo ou raciocínio), pois o modelo explicita os passos intermediários, reduzindo saltos intuitivos errados.


4. 📚 Bibliografia Estendida e Referências (Pesquisa)

  • Paper de Survey: Ji, Z., et al. (2023). “Survey of Hallucination in Natural Language Generation.” ACM Computing Surveys.

  • Conceito de Papagaios Estocásticos: Bender, E. M., et al. (2021). “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?“. FAccT ‘21.

  • Ferramenta de Avaliação: Ragas (Retrieval Augmented Generation Assessment) - Framework para medir “Faithfulness” (Fidelidade ao contexto) e “Answer Relevance” em pipelines de RAG.

  • Ferramenta de Guardrails: NeMo Guardrails (NVIDIA) - Permite definir regras estritas (“Nunca dê conselhos médicos”) que interceptam e bloqueiam alucinações antes de chegarem ao usuário.


5. ⚠️ Pontos de Atenção e Trade-offs

  1. A Ilusão da Eloquência: O professor alertou que “se parece certo, deve estar certo”. Modelos maiores (como GPT-4) são mais convincentes em suas alucinações do que modelos menores, o que é perigoso.

  2. Temperatura: Temperaturas altas () aumentam a criatividade, mas também a chance de alucinação. Para tarefas factuais, a recomendação de engenharia é usar temperature=0.

  3. Alucinação vs. Criatividade: Em tarefas criativas (escrever um poema), a “alucinação” é desejável (é a invenção). Em tarefas factuais, é um bug. O engenheiro deve saber qual é o objetivo do agente.

  4. Prompt Hacking: Usuários mal-intencionados podem induzir alucinações (jailbreak) pedindo para o modelo “entrar em modo DAN (Do Anything Now)” ou ignorar suas instruções de segurança.


6. 📝 Quiz Prático

  1. Qual a diferença entre uma “alucinação intrínseca” e uma “alucinação extrínseca” em sistemas RAG?

    • R: A intrínseca ocorre quando o modelo gera algo que contradiz o contexto fornecido no prompt. A extrínseca ocorre quando o modelo ignora o contexto e traz uma informação externa (do seu pré-treino) que pode ser falsa ou irrelevante para a fonte citada.
  2. Por que modelos de linguagem têm dificuldade em citar fontes reais (URLs ou Papers) e tendem a inventá-las?

    • R: Porque eles não têm acesso a um banco de dados de URLs em tempo real durante a inferência (sem tools). Eles apenas preveem qual seria a aparência provável de uma URL ou citação naquele contexto, token por token.
  3. Como a técnica de “Grounding” (Aterramento) ajuda a combater alucinações?

    • R: O Grounding conecta a geração do modelo a uma fonte de verdade verificável (como um documento recuperado via RAG ou um resultado de busca na web), forçando o modelo a usar essas informações como base para a resposta, em vez de confiar apenas em seus pesos internos.
  4. (Desafio SOTA): Em sistemas de avaliação automática como o “LLM-as-a-Judge”, qual métrica é usada para detectar se uma resposta foi inventada pelo modelo ou se baseou no contexto fornecido?

    • R: A métrica de Faithfulness (Fidelidade). Ela mede se todas as afirmações feitas na resposta podem ser inferidas logicamente a partir do contexto recuperado, penalizando informações que não estão presentes na fonte (alucinações).