1. ⚡ Resumo Expandido

A aula foca no problema do “Knowledge Cutoff” (ponto de corte do conhecimento): uma LLM, uma vez treinada, torna-se uma cápsula do tempo estática. O professor desmistifica a ideia de que a IA “aprende” com cada conversa em tempo real; na verdade, os pesos e vieses do modelo permanecem congelados pós-treinamento.

Para resolver a necessidade de informações dinâmicas (ex: notícias, dados corporativos, cotações), a solução padrão discutida é o RAG (Retrieval-Augmented Generation). No mercado atual, o SOTA evoluiu para sistemas Agentic RAG e o uso de protocolos como o MCP (Model Context Protocol), que permitem que a IA não apenas consulte dados, mas interaja dinamicamente com sistemas externos para construir seu próprio contexto de resposta.


2. 🔍 Deep Dive: Conceitos & Teoria

  • Knowledge Cutoff e Modelos Estáticos:

    • Na Aula: O professor explica que, se um modelo foi treinado em 2025, ele não saberá eventos de 2026 a menos que use ferramentas externas. O treinamento é caro e demorado, impossibilitando atualizações diárias.

    • SOTA (Estado da Arte): Atualmente, utilizamos Continual Learning (aprendizado contínuo), mas em escala industrial, a fronteira é o Context Window Expansion (janelas de contexto massivas). Modelos como o Gemini 2.5 Pro suportam milhões de tokens, permitindo que você envie livros inteiros ou repositórios de código no prompt, “atualizando” o conhecimento do modelo sem re-treinamento.

  • RAG (Retrieval-Augmented Generation):

    • Na Aula: É comparado a uma pessoa que não sabe algo, mas abre um livro para ler e responde com base na leitura. Os documentos recuperados são “injetados” no meio do prompt.

    • SOTA: O conceito atual é o GraphRAG (da Microsoft Research). Em vez de apenas buscar pedaços de texto por similaridade (vetores), o sistema constrói um grafo de conhecimento para entender relações complexas entre entidades, permitindo responder perguntas sobre “temas globais” em grandes bases de dados que o RAG comum falha em sintetizar.


3. 🛠️ Engenharia: Arquiteturas e SOTA no Mercado

  • Agentic RAG (O Novo Padrão):

    • Funcionamento: Diferente do RAG passivo (Busca Responde), o Agentic RAG utiliza um agente que reflete sobre a busca. Se os resultados forem insuficientes, ele reformula a query e busca novamente (loop de reflexão).

    • Referência de Mercado: O Google Deep Research personifica esse SOTA. Ele planeja uma estratégia de busca, navega por múltiplos sites, avalia a credibilidade das fontes e sintetiza um relatório completo de forma autônoma.

  • Interoperabilidade via MCP (Model Context Protocol):

    • O que é: Lançado pela Anthropic e adotado por gigantes como Google e Slack, o MCP é o “USB” para modelos de IA.

    • Exemplo SOTA: Permite que um agente se conecte instantaneamente a um banco de dados SQL, ao Google Drive ou ao GitHub de forma padronizada, sem precisar escrever um código de integração manual para cada ferramenta.


4. 📚 Bibliografia Estendida (SOTA)

  • Papers Recomendados:

    • “Self-RAG: Learning to Retrieve, Generate, and Critique” (2024): Explica como os modelos podem aprender a decidir quando precisam buscar dados externos.

    • “Attention over Past” (2025): Pesquisas sobre como gerenciar memórias de longo prazo sem estourar o limite de tokens.

  • Artigos de Engenharia:

    • Netflix Tech Blog: Como usam RAG para personalizar recomendações de suporte técnico em tempo real.

    • Uber Engineering: Uso de arquiteturas de agentes para gerenciar logística em tempo real.


5. ⚠️ Pontos de Atenção e Trade-offs

  • Custos de Tokens: Injetar documentos via RAG ou manter janelas de contexto gigantescas aumenta o custo de cada requisição drasticamente.

  • Latência: O SOTA de “Deep Research” é lento. O usuário precisa trocar a “resposta imediata” por um “tempo de pensamento” de 1 a 5 minutos para ter alta qualidade.

  • Privacidade: Ao usar MCP ou ferramentas de busca, há o risco de Prompt Leakage (vazamento de dados sensíveis para a ferramenta externa).


6. 📝 Quiz Prático

  1. Por que as LLMs sofrem de alucinação ao falar de fatos recentes?

    • Resposta: Porque elas tentam prever tokens com base em probabilidades estatísticas de dados antigos (base de treino), sem acesso a uma base factual atualizada nativamente.
  2. Qual a diferença entre a “Memória Ativada” (Gems/ChatGPT) e o re-treinamento do modelo?

    • Resposta: A memória ativada é um arquivo/instrução que acompanha o prompt (contexto); o re-treinamento altera os pesos fundamentais do neurônio da IA.
  3. Como o protocolo A2A (Agent-to-Agent) ajuda no conhecimento em tempo real?

    • Resposta: Ele permite que um agente “especialista em busca” passe dados atualizados para um agente “redator”, mantendo a interoperabilidade entre diferentes sistemas.

Desafio SOTA:

O que é “Hybrid Search” e por que ele é superior à busca vetorial pura no RAG?

  • Dica de Resposta: Ele combina Busca Semântica (vetores, para capturar sentido) com Busca Lexical (BM25/palavras-chave, para termos técnicos e nomes próprios precisos). Isso garante que se você buscar por um número de protocolo específico, a IA o encontre, mesmo que ele não tenha um “significado semântico” forte.