3.21 - Conhecimento em Tempo Real e o Limite do Treinamento

1. ⚡ Resumo Expandido

A aula foca no problema do “Knowledge Cutoff” (ponto de corte do conhecimento): uma LLM, uma vez treinada, torna-se uma cápsula do tempo estática. O professor desmistifica a ideia de que a IA “aprende” com cada conversa em tempo real; na verdade, os pesos e vieses do modelo permanecem congelados pós-treinamento.

Para resolver a necessidade de informações dinâmicas (ex: notícias, dados corporativos, cotações), a solução padrão discutida é o RAG (Retrieval-Augmented Generation). No mercado atual, o SOTA evoluiu para sistemas Agentic RAG e o uso de protocolos como o MCP (Model Context Protocol), que permitem que a IA não apenas consulte dados, mas interaja dinamicamente com sistemas externos para construir seu próprio contexto de resposta.

2. 🔍 Deep Dive: Conceitos & Teoria

Knowledge Cutoff e Modelos Estáticos:
- Na Aula: O professor explica que, se um modelo foi treinado em 2025, ele não saberá eventos de 2026 a menos que use ferramentas externas. O treinamento é caro e demorado, impossibilitando atualizações diárias.
- SOTA (Estado da Arte): Atualmente, utilizamos Continual Learning (aprendizado contínuo), mas em escala industrial, a fronteira é o Context Window Expansion (janelas de contexto massivas). Modelos como o Gemini 2.5 Pro suportam milhões de tokens, permitindo que você envie livros inteiros ou repositórios de código no prompt, “atualizando” o conhecimento do modelo sem re-treinamento.
RAG (Retrieval-Augmented Generation):
- Na Aula: É comparado a uma pessoa que não sabe algo, mas abre um livro para ler e responde com base na leitura. Os documentos recuperados são “injetados” no meio do prompt.
- SOTA: O conceito atual é o GraphRAG (da Microsoft Research). Em vez de apenas buscar pedaços de texto por similaridade (vetores), o sistema constrói um grafo de conhecimento para entender relações complexas entre entidades, permitindo responder perguntas sobre “temas globais” em grandes bases de dados que o RAG comum falha em sintetizar.

3. 🛠️ Engenharia: Arquiteturas e SOTA no Mercado

Agentic RAG (O Novo Padrão):
- Funcionamento: Diferente do RAG passivo (Busca → Responde), o Agentic RAG utiliza um agente que reflete sobre a busca. Se os resultados forem insuficientes, ele reformula a query e busca novamente (loop de reflexão).
- Referência de Mercado: O Google Deep Research personifica esse SOTA. Ele planeja uma estratégia de busca, navega por múltiplos sites, avalia a credibilidade das fontes e sintetiza um relatório completo de forma autônoma.
Interoperabilidade via MCP (Model Context Protocol):
- O que é: Lançado pela Anthropic e adotado por gigantes como Google e Slack, o MCP é o “USB” para modelos de IA.
- Exemplo SOTA: Permite que um agente se conecte instantaneamente a um banco de dados SQL, ao Google Drive ou ao GitHub de forma padronizada, sem precisar escrever um código de integração manual para cada ferramenta.

4. 📚 Bibliografia Estendida (SOTA)

Papers Recomendados:
- “Self-RAG: Learning to Retrieve, Generate, and Critique” (2024): Explica como os modelos podem aprender a decidir quando precisam buscar dados externos.
- “Attention over Past” (2025): Pesquisas sobre como gerenciar memórias de longo prazo sem estourar o limite de tokens.
Artigos de Engenharia:
- Netflix Tech Blog: Como usam RAG para personalizar recomendações de suporte técnico em tempo real.
- Uber Engineering: Uso de arquiteturas de agentes para gerenciar logística em tempo real.

5. ⚠️ Pontos de Atenção e Trade-offs

Custos de Tokens: Injetar documentos via RAG ou manter janelas de contexto gigantescas aumenta o custo de cada requisição drasticamente.
Latência: O SOTA de “Deep Research” é lento. O usuário precisa trocar a “resposta imediata” por um “tempo de pensamento” de 1 a 5 minutos para ter alta qualidade.
Privacidade: Ao usar MCP ou ferramentas de busca, há o risco de Prompt Leakage (vazamento de dados sensíveis para a ferramenta externa).

6. 📝 Quiz Prático

Por que as LLMs sofrem de alucinação ao falar de fatos recentes?
- Resposta: Porque elas tentam prever tokens com base em probabilidades estatísticas de dados antigos (base de treino), sem acesso a uma base factual atualizada nativamente.
Qual a diferença entre a “Memória Ativada” (Gems/ChatGPT) e o re-treinamento do modelo?
- Resposta: A memória ativada é um arquivo/instrução que acompanha o prompt (contexto); o re-treinamento altera os pesos fundamentais do neurônio da IA.
Como o protocolo A2A (Agent-to-Agent) ajuda no conhecimento em tempo real?
- Resposta: Ele permite que um agente “especialista em busca” passe dados atualizados para um agente “redator”, mantendo a interoperabilidade entre diferentes sistemas.

Desafio SOTA:

O que é “Hybrid Search” e por que ele é superior à busca vetorial pura no RAG?

Dica de Resposta: Ele combina Busca Semântica (vetores, para capturar sentido) com Busca Lexical (BM25/palavras-chave, para termos técnicos e nomes próprios precisos). Isso garante que se você buscar por um número de protocolo específico, a IA o encontre, mesmo que ele não tenha um “significado semântico” forte.

Cristian Araujo

Explorer

3.21 - Conhecimento em Tempo Real e o Limite do Treinamento

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

3. 🛠️ Engenharia: Arquiteturas e SOTA no Mercado

4. 📚 Bibliografia Estendida (SOTA)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View