1. ⚡ Resumo Expandido
A aula foca no problema do “Knowledge Cutoff” (ponto de corte do conhecimento): uma LLM, uma vez treinada, torna-se uma cápsula do tempo estática. O professor desmistifica a ideia de que a IA “aprende” com cada conversa em tempo real; na verdade, os pesos e vieses do modelo permanecem congelados pós-treinamento.
Para resolver a necessidade de informações dinâmicas (ex: notícias, dados corporativos, cotações), a solução padrão discutida é o RAG (Retrieval-Augmented Generation). No mercado atual, o SOTA evoluiu para sistemas Agentic RAG e o uso de protocolos como o MCP (Model Context Protocol), que permitem que a IA não apenas consulte dados, mas interaja dinamicamente com sistemas externos para construir seu próprio contexto de resposta.
2. 🔍 Deep Dive: Conceitos & Teoria
-
Knowledge Cutoff e Modelos Estáticos:
-
Na Aula: O professor explica que, se um modelo foi treinado em 2025, ele não saberá eventos de 2026 a menos que use ferramentas externas. O treinamento é caro e demorado, impossibilitando atualizações diárias.
-
SOTA (Estado da Arte): Atualmente, utilizamos Continual Learning (aprendizado contínuo), mas em escala industrial, a fronteira é o Context Window Expansion (janelas de contexto massivas). Modelos como o Gemini 2.5 Pro suportam milhões de tokens, permitindo que você envie livros inteiros ou repositórios de código no prompt, “atualizando” o conhecimento do modelo sem re-treinamento.
-
-
RAG (Retrieval-Augmented Generation):
-
Na Aula: É comparado a uma pessoa que não sabe algo, mas abre um livro para ler e responde com base na leitura. Os documentos recuperados são “injetados” no meio do prompt.
-
SOTA: O conceito atual é o GraphRAG (da Microsoft Research). Em vez de apenas buscar pedaços de texto por similaridade (vetores), o sistema constrói um grafo de conhecimento para entender relações complexas entre entidades, permitindo responder perguntas sobre “temas globais” em grandes bases de dados que o RAG comum falha em sintetizar.
-
3. 🛠️ Engenharia: Arquiteturas e SOTA no Mercado
-
Agentic RAG (O Novo Padrão):
-
Funcionamento: Diferente do RAG passivo (Busca → Responde), o Agentic RAG utiliza um agente que reflete sobre a busca. Se os resultados forem insuficientes, ele reformula a query e busca novamente (loop de reflexão).
-
Referência de Mercado: O Google Deep Research personifica esse SOTA. Ele planeja uma estratégia de busca, navega por múltiplos sites, avalia a credibilidade das fontes e sintetiza um relatório completo de forma autônoma.
-
-
Interoperabilidade via MCP (Model Context Protocol):
-
O que é: Lançado pela Anthropic e adotado por gigantes como Google e Slack, o MCP é o “USB” para modelos de IA.
-
Exemplo SOTA: Permite que um agente se conecte instantaneamente a um banco de dados SQL, ao Google Drive ou ao GitHub de forma padronizada, sem precisar escrever um código de integração manual para cada ferramenta.
-
4. 📚 Bibliografia Estendida (SOTA)
-
Papers Recomendados:
-
“Self-RAG: Learning to Retrieve, Generate, and Critique” (2024): Explica como os modelos podem aprender a decidir quando precisam buscar dados externos.
-
“Attention over Past” (2025): Pesquisas sobre como gerenciar memórias de longo prazo sem estourar o limite de tokens.
-
-
Artigos de Engenharia:
-
Netflix Tech Blog: Como usam RAG para personalizar recomendações de suporte técnico em tempo real.
-
Uber Engineering: Uso de arquiteturas de agentes para gerenciar logística em tempo real.
-
5. ⚠️ Pontos de Atenção e Trade-offs
-
Custos de Tokens: Injetar documentos via RAG ou manter janelas de contexto gigantescas aumenta o custo de cada requisição drasticamente.
-
Latência: O SOTA de “Deep Research” é lento. O usuário precisa trocar a “resposta imediata” por um “tempo de pensamento” de 1 a 5 minutos para ter alta qualidade.
-
Privacidade: Ao usar MCP ou ferramentas de busca, há o risco de Prompt Leakage (vazamento de dados sensíveis para a ferramenta externa).
6. 📝 Quiz Prático
-
Por que as LLMs sofrem de alucinação ao falar de fatos recentes?
- Resposta: Porque elas tentam prever tokens com base em probabilidades estatísticas de dados antigos (base de treino), sem acesso a uma base factual atualizada nativamente.
-
Qual a diferença entre a “Memória Ativada” (Gems/ChatGPT) e o re-treinamento do modelo?
- Resposta: A memória ativada é um arquivo/instrução que acompanha o prompt (contexto); o re-treinamento altera os pesos fundamentais do neurônio da IA.
-
Como o protocolo A2A (Agent-to-Agent) ajuda no conhecimento em tempo real?
- Resposta: Ele permite que um agente “especialista em busca” passe dados atualizados para um agente “redator”, mantendo a interoperabilidade entre diferentes sistemas.
Desafio SOTA:
O que é “Hybrid Search” e por que ele é superior à busca vetorial pura no RAG?
- Dica de Resposta: Ele combina Busca Semântica (vetores, para capturar sentido) com Busca Lexical (BM25/palavras-chave, para termos técnicos e nomes próprios precisos). Isso garante que se você buscar por um número de protocolo específico, a IA o encontre, mesmo que ele não tenha um “significado semântico” forte.