3.13 - MLM (Masked Language Modeling)

1. ⚡ Resumo Expandido

Nesta aula, o foco desloca-se da geração de texto (abordada na aula anterior com CLM) para a compreensão profunda de contexto através do Masked Language Modeling (MLM). Enquanto modelos como o GPT leem da esquerda para a direita (unidirecionais) tentando adivinhar a próxima palavra, modelos MLM (como o BERT) funcionam como um exercício de “preencher as lacunas” (Cloze Task).

O professor explica que o MLM mascara aleatoriamente uma porcentagem das palavras (geralmente cerca de 15-20%) no meio de uma frase. O objetivo do modelo é utilizar o contexto Bidirecional — ou seja, olhar tanto para o que vem antes quanto para o que vem depois da máscara — para prever a palavra oculta.

Contexto de Mercado (SOTA): Embora a IA Generativa (GenAI) atual seja dominada por modelos Decoder-only (GPT, Claude, Gemini), a arquitetura MLM (Encoder-only) continua sendo o “padrão ouro” para tarefas de Embeddings, Busca Semântica e Classificação. Em sistemas modernos de RAG (Retrieval-Augmented Generation), é comum usar um modelo MLM (como text-embedding-3-small ou bge-m3) para converter texto em vetores e recuperar a informação, e só depois usar um modelo CLM (GPT) para gerar a resposta.

2. 🔍 Deep Dive: Conceitos & Teoria

MLM (Masked Language Modeling)

Na Aula: Descrito como o processo de ocultar palavras no meio do texto para forçar o modelo a olhar para ambos os lados (esquerda e direita) para inferir o significado.
Deep Dive (Pesquisa):
- Origem: Introduzido no paper “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., Google, 2018).
- A Regra 80-10-10: Um detalhe técnico crucial não mencionado na aula é como o mascaramento é implementado para evitar viés. Dos 15% dos tokens escolhidos:
  - 80% são substituídos pelo token especial [MASK].
  - 10% são substituídos por uma palavra aleatória (para forçar o modelo a verificar o contexto).
  - 10% são mantidos originais (para o modelo aprender a representar a palavra real).

Bidirecionalidade (Contexto Profundo)

Na Aula: A capacidade de olhar “para trás e para frente” simultaneamente.
Deep Dive (Pesquisa): A bidirecionalidade resolve o problema da polissemia. Na frase “Eu fui ao banco sacar dinheiro” vs “Eu sentei no banco da praça”, um modelo unidirecional (CLM) lendo da esquerda para a direita pode ter dificuldade em desambiguar “banco” até ver as palavras futuras. O MLM vê a frase inteira de uma vez (mecanismo de Self-Attention sem máscara causal), permitindo uma compreensão semântica superior.

Aprendizado Auto-supervisionado (Unsupervised/Self-supervised)

Na Aula: O professor reitera que não há humanos rotulando dados; o texto bruto é a fonte da verdade.
Deep Dive (Pesquisa): Yann LeCun define isso como “preencher os espaços em branco”. É a forma mais eficiente de aprendizado porque a quantidade de dados não rotulados na internet é ordens de magnitude maior do que datasets rotulados (como ImageNet).

3. 🛠️ Engenharia: Arquiteturas e Agentes

Padrão: Encoder-Only (Transformers)

Funcionamento: Diferente dos modelos generativos (Decoder-only), o MLM utiliza apenas a pilha de Encoders do Transformer original. O fluxo de dados não é mascarado causalmente, permitindo que cada token “veja” todos os outros tokens na camada anterior.
Exemplo da Aula: O professor cita o BERT como o exemplo clássico.
Referência Externa:
- Hugging Face Transformers: A classe BertForMaskedLM é a implementação padrão.
- Uso em RAG: Em engenharia de software moderna, raramente usamos BERT para gerar texto. Usamos modelos derivados (como RoBERTa, DeBERTa ou E5) para criar Embeddings que alimentam bancos de dados vetoriais (Pinecone, Weaviate). O MLM é a engenharia por trás da “memória” eficiente da IA.

Nota do Pesquisador: Fill-In-the-Middle (FIM)

Embora o professor afirme que CLM é só “para frente” e MLM é “lacunas”, modelos de código modernos (como o que alimenta o GitHub Copilot) usam uma técnica híbrida chamada FIM. Eles são modelos generativos (CLM), mas treinados para preencher o meio do código, movendo o contexto final para o início do prompt. Isso permite que modelos generativos simulem a capacidade do MLM de olhar “para frente”.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Paper do BERT: “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., 2018). O paper que mudou NLP para sempre.
Paper do RoBERTa: “RoBERTa: A Robustly Optimized BERT Pretraining Approach” (Liu et al., Facebook AI, 2019). Mostrou que o BERT original estava “sub-treinado” e que remover a tarefa de prever a próxima frase (NSP) e usar mais dados melhorava o MLM.
Ferramenta de Mercado: MTEB (Massive Text Embedding Benchmark). Um ranking mantido pela Hugging Face que avalia quais modelos MLM são melhores para classificação, clusterização e busca semântica hoje.

5. ⚠️ Pontos de Atenção e Trade-offs

Ineficiência de Treinamento: O pesquisador alerta que, no MLM, o modelo aprende apenas com os 15% de tokens mascarados por passo. No CLM (GPT), o modelo aprende com 100% dos tokens (cada palavra é a predição da anterior). Isso torna o MLM computacionalmente mais caro para treinar a mesma quantidade de “conhecimento”.
Incapacidade Generativa: O professor alerta corretamente: Não use MLM para chat ou geração de texto. Ele não sabe como gerar sequências longas e coerentes de forma fluida. Se tentar, ele gerará palavras desconexas ou demorará muito (não é otimizado para geração token-a-token).
Complexidade de Deploy: Enquanto um GPT serve para quase tudo (generalista), modelos MLM geralmente precisam de um Fine-tuning (ajuste fino) específico para a tarefa final (classificação de sentimento, reconhecimento de entidades, etc.) para performar bem.

6. 📝 Quiz Prático

Qual a principal vantagem da arquitetura MLM (como BERT) sobre a CLM (como GPT)?

a) Gera textos mais criativos e longos.

b) Compreende o contexto bidirecionalmente, sendo superior em classificação e busca.

c) É mais rápida para treinar pois processa 100% dos tokens de uma vez.
No processo de MLM, o que acontece com a frase de entrada “O céu hoje está azul”?

a) O modelo prevê “azul” baseado apenas em “O céu hoje está”.

b) O modelo reescreve a frase em outra língua.

c) Algumas palavras são substituídas por [MASK] (ex: “O [MASK] hoje está azul”) e o modelo tenta recuperar a original usando todo o contexto.
Por que modelos MLM são frequentemente chamados de “Encoder-only”?

a) Porque eles codificam o texto em uma representação vetorial rica (embedding) sem necessariamente decodificá-lo em um novo texto gerado.

b) Porque eles encriptam os dados para segurança.

c) Porque eles só funcionam com códigos de programação.
🔥 Pergunta Desafio (Researcher): O paper do RoBERTa (2019) criticou e removeu uma das tarefas originais de pré-treinamento do BERT, provando que ela não era necessária e até atrapalhava o desempenho em alguns casos. Qual foi essa tarefa?

a) Masked Language Modeling (MLM).

b) Next Sentence Prediction (NSP).

c) Tokenization BPE.

Gabarito: 1-b, 2-c, 3-a, 4-b

Cristian Araujo

Explorer

3.13 - MLM (Masked Language Modeling)

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

MLM (Masked Language Modeling)

Bidirecionalidade (Contexto Profundo)

Aprendizado Auto-supervisionado (Unsupervised/Self-supervised)

3. 🛠️ Engenharia: Arquiteturas e Agentes

Padrão: Encoder-Only (Transformers)

Nota do Pesquisador: Fill-In-the-Middle (FIM)

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View