1. ⚡ Resumo Expandido
Nesta aula, o foco desloca-se da geração de texto (abordada na aula anterior com CLM) para a compreensão profunda de contexto através do Masked Language Modeling (MLM). Enquanto modelos como o GPT leem da esquerda para a direita (unidirecionais) tentando adivinhar a próxima palavra, modelos MLM (como o BERT) funcionam como um exercício de “preencher as lacunas” (Cloze Task).
O professor explica que o MLM mascara aleatoriamente uma porcentagem das palavras (geralmente cerca de 15-20%) no meio de uma frase. O objetivo do modelo é utilizar o contexto Bidirecional — ou seja, olhar tanto para o que vem antes quanto para o que vem depois da máscara — para prever a palavra oculta.
Contexto de Mercado (SOTA): Embora a IA Generativa (GenAI) atual seja dominada por modelos Decoder-only (GPT, Claude, Gemini), a arquitetura MLM (Encoder-only) continua sendo o “padrão ouro” para tarefas de Embeddings, Busca Semântica e Classificação. Em sistemas modernos de RAG (Retrieval-Augmented Generation), é comum usar um modelo MLM (como text-embedding-3-small ou bge-m3) para converter texto em vetores e recuperar a informação, e só depois usar um modelo CLM (GPT) para gerar a resposta.
2. 🔍 Deep Dive: Conceitos & Teoria
MLM (Masked Language Modeling)
-
Na Aula: Descrito como o processo de ocultar palavras no meio do texto para forçar o modelo a olhar para ambos os lados (esquerda e direita) para inferir o significado.
-
Deep Dive (Pesquisa):
-
Origem: Introduzido no paper “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., Google, 2018).
-
A Regra 80-10-10: Um detalhe técnico crucial não mencionado na aula é como o mascaramento é implementado para evitar viés. Dos 15% dos tokens escolhidos:
-
80% são substituídos pelo token especial
[MASK]. -
10% são substituídos por uma palavra aleatória (para forçar o modelo a verificar o contexto).
-
10% são mantidos originais (para o modelo aprender a representar a palavra real).
-
-
Bidirecionalidade (Contexto Profundo)
-
Na Aula: A capacidade de olhar “para trás e para frente” simultaneamente.
-
Deep Dive (Pesquisa): A bidirecionalidade resolve o problema da polissemia. Na frase “Eu fui ao banco sacar dinheiro” vs “Eu sentei no banco da praça”, um modelo unidirecional (CLM) lendo da esquerda para a direita pode ter dificuldade em desambiguar “banco” até ver as palavras futuras. O MLM vê a frase inteira de uma vez (mecanismo de Self-Attention sem máscara causal), permitindo uma compreensão semântica superior.
Aprendizado Auto-supervisionado (Unsupervised/Self-supervised)
-
Na Aula: O professor reitera que não há humanos rotulando dados; o texto bruto é a fonte da verdade.
-
Deep Dive (Pesquisa): Yann LeCun define isso como “preencher os espaços em branco”. É a forma mais eficiente de aprendizado porque a quantidade de dados não rotulados na internet é ordens de magnitude maior do que datasets rotulados (como ImageNet).
3. 🛠️ Engenharia: Arquiteturas e Agentes
Padrão: Encoder-Only (Transformers)
-
Funcionamento: Diferente dos modelos generativos (Decoder-only), o MLM utiliza apenas a pilha de Encoders do Transformer original. O fluxo de dados não é mascarado causalmente, permitindo que cada token “veja” todos os outros tokens na camada anterior.
-
Exemplo da Aula: O professor cita o BERT como o exemplo clássico.
-
Referência Externa:
-
Hugging Face
Transformers: A classeBertForMaskedLMé a implementação padrão. -
Uso em RAG: Em engenharia de software moderna, raramente usamos BERT para gerar texto. Usamos modelos derivados (como RoBERTa, DeBERTa ou E5) para criar Embeddings que alimentam bancos de dados vetoriais (Pinecone, Weaviate). O MLM é a engenharia por trás da “memória” eficiente da IA.
-
Nota do Pesquisador: Fill-In-the-Middle (FIM)
Embora o professor afirme que CLM é só “para frente” e MLM é “lacunas”, modelos de código modernos (como o que alimenta o GitHub Copilot) usam uma técnica híbrida chamada FIM. Eles são modelos generativos (CLM), mas treinados para preencher o meio do código, movendo o contexto final para o início do prompt. Isso permite que modelos generativos simulem a capacidade do MLM de olhar “para frente”.
4. 📚 Bibliografia Estendida e Referências (Pesquisa)
-
Paper do BERT: “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., 2018). O paper que mudou NLP para sempre.
-
Paper do RoBERTa: “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (Liu et al., Facebook AI, 2019). Mostrou que o BERT original estava “sub-treinado” e que remover a tarefa de prever a próxima frase (NSP) e usar mais dados melhorava o MLM.
-
Ferramenta de Mercado: MTEB (Massive Text Embedding Benchmark). Um ranking mantido pela Hugging Face que avalia quais modelos MLM são melhores para classificação, clusterização e busca semântica hoje.
5. ⚠️ Pontos de Atenção e Trade-offs
-
Ineficiência de Treinamento: O pesquisador alerta que, no MLM, o modelo aprende apenas com os 15% de tokens mascarados por passo. No CLM (GPT), o modelo aprende com 100% dos tokens (cada palavra é a predição da anterior). Isso torna o MLM computacionalmente mais caro para treinar a mesma quantidade de “conhecimento”.
-
Incapacidade Generativa: O professor alerta corretamente: Não use MLM para chat ou geração de texto. Ele não sabe como gerar sequências longas e coerentes de forma fluida. Se tentar, ele gerará palavras desconexas ou demorará muito (não é otimizado para geração token-a-token).
-
Complexidade de Deploy: Enquanto um GPT serve para quase tudo (generalista), modelos MLM geralmente precisam de um Fine-tuning (ajuste fino) específico para a tarefa final (classificação de sentimento, reconhecimento de entidades, etc.) para performar bem.
6. 📝 Quiz Prático
-
Qual a principal vantagem da arquitetura MLM (como BERT) sobre a CLM (como GPT)?
a) Gera textos mais criativos e longos.
b) Compreende o contexto bidirecionalmente, sendo superior em classificação e busca.
c) É mais rápida para treinar pois processa 100% dos tokens de uma vez.
-
No processo de MLM, o que acontece com a frase de entrada “O céu hoje está azul”?
a) O modelo prevê “azul” baseado apenas em “O céu hoje está”.
b) O modelo reescreve a frase em outra língua.
c) Algumas palavras são substituídas por [MASK] (ex: “O [MASK] hoje está azul”) e o modelo tenta recuperar a original usando todo o contexto.
-
Por que modelos MLM são frequentemente chamados de “Encoder-only”?
a) Porque eles codificam o texto em uma representação vetorial rica (embedding) sem necessariamente decodificá-lo em um novo texto gerado.
b) Porque eles encriptam os dados para segurança.
c) Porque eles só funcionam com códigos de programação.
-
🔥 Pergunta Desafio (Researcher): O paper do RoBERTa (2019) criticou e removeu uma das tarefas originais de pré-treinamento do BERT, provando que ela não era necessária e até atrapalhava o desempenho em alguns casos. Qual foi essa tarefa?
a) Masked Language Modeling (MLM).
b) Next Sentence Prediction (NSP).
c) Tokenization BPE.
Gabarito: 1-b, 2-c, 3-a, 4-b