6 - Decoder-only | Cristian Araujo

1. ⚡ Resumo Expandido

Nesta aula, avançamos na dissecção da arquitetura Transformer, focando na topologia Decoder-only (Apenas Decodificador). Ao contrário do Encoder (que analisa a frase inteira de uma vez para compreensão semântica), o Decoder é otimizado para uma tarefa específica: a geração autorregressiva de texto, ou seja, prever o próximo token com base no histórico anterior.

Para que o modelo não “trapaceie” olhando para as palavras futuras durante o treinamento paralelo, utiliza-se a técnica de Causal Self-Attention (Atenção Autoregressiva). O professor explicou isso através de uma analogia de uma máscara triangular inferior (lower triangular mask), onde a matriz de atenção bloqueia as colunas futuras com zeros, permitindo que a rede processe apenas o passado.

Por exemplo, na frase “o cachorro correu rápido”, ao prever a palavra “correu”, o modelo só tem permissão para “enxergar” os tokens “o” e “cachorro”. O professor também detalhou as três subcamadas fundamentais desse bloco: Multi-Head Attention (para diferentes perspectivas do texto), Feed Forward Position-wise (o “mini-cérebro” de processamento não-linear) e LayerNorm + Conexões Residuais (para estabilizar o gradiente e evitar a perda de informações).

2. 🔍 Deep Dive: Conceitos & Teoria

Causal Self-Attention & Máscara Triangular Inferior:
- Na Aula: Foi descrito como uma matriz de checks e zeros. Os zeros ocultam o futuro para que o modelo foque apenas no presente e passado ao tentar prever a próxima palavra, garantindo que ele não “cole” na prova.
- Deep Dive (Pesquisa): Matematicamente, a máscara é aplicada sobre o produto escalar das matrizes de Query (Q) e Key (K). Aos elementos acima da diagonal principal (o futuro) é atribuído o valor de $- \infty$ (menos infinito). Quando a função Softmax é aplicada para converter esses valores em probabilidades, $e^{- \infty}$ torna-se exatamente $0$ . Isso zera completamente a atenção (peso) para tokens futuros. Esta é a base matemática que permitiu a criação de modelos da família GPT (Generative Pre-trained Transformer).
Componentes do Bloco Decoder:
- Na Aula: A arquitetura é dividida em Multi-Head Attention, Feed Forward Position-wise (um processamento individual por palavra) e Layer Norm com Conexões Residuais (para evitar que a rede morra ou exploda).
- Deep Dive (Pesquisa): * Multi-Head Attention: Permite que o modelo preste atenção a diferentes “espaços de representação”. Uma “cabeça” pode focar na gramática, outra no gênero, outra na rima.
  - Conexões Residuais (Residual Connections): Introduzidas pela Microsoft no paper da ResNet (He et al., 2015), elas adicionam a entrada da camada (o $x$ original) diretamente à sua saída ( $F (x) + x$ ). Isso mitiga o famoso problema do Desvanecimento do Gradiente (Vanishing Gradient) em redes muito profundas, garantindo que o sinal de erro flua livremente durante o backpropagation.

3. 🛠️ Engenharia: Arquiteturas e Agentes

Padrão/Framework: Inferência Autorregressiva (Geração de Texto em Produção)
- Funcionamento: Como o Decoder-only só pode prever um token por vez, o processo de geração (inferência) é estritamente sequencial e iterativo. O token gerado no passo $t$ é anexado à entrada para gerar o token no passo $t + 1$ .
- Exemplo da Aula: A geração sequencial de “o”, depois “cachorro”, depois “correu”, depois “rápido”.
- Nota do Pesquisador (Otimização SOTA): Na engenharia de software real, esse processo gera um gargalo massivo de memória e I/O conhecido como Memory Wall. Para resolver isso em produção, sistemas como o vLLM utilizam uma técnica chamada KV Caching (armazenamento em cache das matrizes Key e Value de tokens passados) aliada ao PagedAttention, evitando o recálculo redundante do passado a cada novo token gerado.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Paper Recomendado: “Improving Language Understanding by Generative Pre-Training” (Radford et al., 2018). Este é o paper do GPT-1, que provou para a indústria que arquiteturas Decoder-only, pré-treinadas em grandes volumes de texto, poderiam superar as arquiteturas anteriores em tarefas gerativas.
Paper Fundamental: “Deep Residual Learning for Image Recognition” (He et al., 2015). A base teórica para as Conexões Residuais mencionadas pelo professor, que permitiram que as redes neurais se tornassem “profundas” (Deep Learning).
Blog de Engenharia: Databricks / Hugging Face Blog on KV Caching & LLM Inference. Leitura obrigatória para engenheiros de software que precisam colocar modelos GPT ou LLaMA em produção, detalhando como escalar a atenção causal.

5. ⚠️ Pontos de Atenção e Trade-offs

Latência vs. Treinamento (Aviso Crítico): O professor mencionou que o modelo “vai ser mais rápido de executar”.
- Nota do Pesquisador: É vital distinguir treinamento de inferência. No treinamento, a máscara triangular permite que o Decoder calcule a perda para toda a frase simultaneamente em paralelo (extremamente rápido). Na inferência (geração de texto real), o processo é $O (N)$ sequencial, o que torna a geração de respostas longas sujeita a alta latência (Time to First Token e Time Per Output Token).
Alucinações por Exposição ao Futuro: O professor alertou corretamente: se a máscara falhar ou for removida, o modelo tenta prever com base em informações que ele não deveria ter acesso lógico no mundo real, resultando em quebra da integridade estocástica (e altíssimas taxas de alucinação ou overfitting de memorização).

6. 📝 Quiz Prático

1. Qual é a função da “Máscara Triangular Inferior” na camada de Causal Self-Attention de um modelo Decoder-only?

a) Apagar as palavras menos importantes da frase.

b) Bloquear o acesso da rede a tokens futuros durante a previsão do próximo token, forçando a leitura apenas do passado e presente.

c) Transformar as palavras em embeddings numéricos.

d) Conectar o Encoder ao Decoder de forma mais eficiente.

2. Qual problema as “Conexões Residuais” e o “Layer Norm” resolvem primariamente dentro das camadas empilhadas do Transformer?

a) Evitam que o modelo gere textos em idiomas não treinados.

b) Previnem o desvanecimento do gradiente, garantindo que a informação não se perca ou os valores matemáticos não explodam à medida que a rede fica muito profunda.

c) Traduzem as palavras simultaneamente para gerar a máscara causal.

d) Reduzem o custo da API da OpenAI.

3. Considerando as aplicações corporativas, qual arquitetura é a “espinha dorsal” de assistentes virtuais gerativos como o ChatGPT e o Claude?

a) Encoder-only (ex: BERT).

b) Redes Neurais Recorrentes (RNNs) puras.

c) Decoder-only (ex: Família GPT).

d) Hidden Markov Models (HMMs).

4. (Desafio SOTA) Dado que a geração de texto no Decoder-only é sequencial (token a token), qual técnica de engenharia de software é o padrão da indústria atual para acelerar a inferência e não recalcular a atenção de tokens antigos a cada novo passo?

a) Masked Language Modeling (MLM).

b) LoRA (Low-Rank Adaptation).

c) RLHF (Reinforcement Learning from Human Feedback).

d) KV Caching (Key-Value Cache).

Gabarito: 1-b, 2-b, 3-c, 4-d

Cristian Araujo

Explorer

6 - Decoder-only

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

3. 🛠️ Engenharia: Arquiteturas e Agentes

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View