3.12 - Pré treinamento | Cristian Araujo

1. ⚡ Resumo Expandido

A fase de Pré-treinamento é o alicerce fundamental da Inteligência Artificial Generativa. Nesta etapa, o modelo não está sendo “ensinado” a realizar uma tarefa específica (como resumir textos ou escrever código), mas sim a entender a estrutura estatística, sintática e semântica da linguagem.

O professor descreve este momento como a exposição massiva a dados (Big Data), onde o modelo ingere terabytes de texto (livros, artigos, código, internet) para aprender padrões de forma Auto-supervisionada (Self-Supervised Learning). Diferente do aprendizado supervisionado clássico, que exige humanos rotulando dados (ex: “isto é um gato”), no pré-treinamento o próprio dado serve como rótulo. O objetivo principal é a predição: dada uma sequência de palavras, qual é a próxima mais provável?

O processo técnico envolve o cálculo da Loss Function (Função de Perda), especificamente a Cross-Entropy Loss, que mede a distância entre a previsão do modelo e a palavra real no texto. Através do algoritmo de Backpropagation (Retropropagação), o modelo ajusta seus bilhões de parâmetros (pesos) para minimizar esse erro.

Contexto de Mercado (SOTA): Atualmente, o pré-treinamento é a fase mais custosa e intensiva em capital. Modelos como o Llama 3 da Meta ou o GPT-4 da OpenAI consomem milhões de dólares em horas de GPU (H100s) e meses de processamento. A tendência atual, ditada pelas Chinchilla Scaling Laws, indica que não basta apenas aumentar o modelo; é necessário escalar a quantidade de tokens de treino proporcionalmente para atingir a “otimalidade de computação”.

2. 🔍 Deep Dive: Conceitos & Teoria

Aprendizado Auto-supervisionado (Self-Supervised Learning)

Na Aula: O professor explica que o modelo aprende sem a necessidade de um humano dizendo o que é certo ou errado para cada frase, utilizando o próprio texto como gabarito.
Deep Dive (Pesquisa): Yann LeCun (Chief AI Scientist da Meta) descreve o aprendizado auto-supervisionado como a “massa do bolo” da inteligência, enquanto o aprendizado por reforço (RLHF) seria apenas a “cereja”.
- Técnica: O sistema oculta partes da entrada e tenta prever as partes faltantes.
- Paper Seminal: Embora o conceito venha de antes, o sucesso massivo em NLP se consolidou com “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” (Devlin et al., 2018) para MLM e a série GPT para CLM.

Causal Language Modeling (CLM) vs. Masked Language Modeling (MLM)

Na Aula: O professor foca na previsão da próxima palavra (Next Token Prediction) e os slides mencionam MLM.
Deep Dive (Pesquisa):
- CLM (Autoregressivo): Usado em modelos Decoder-only (GPT, Llama, Claude). O modelo vê os tokens $t_{1}, t_{2}, ..., t_{n - 1}$ e tenta prever $t_{n}$ . É unidirecional (só vê o passado). Essencial para geração de texto.
- MLM (Autoencoder): Usado em modelos Encoder-only (BERT). O modelo vê a frase inteira com palavras mascaradas: “O [MASK] latiu”. Ele usa contexto bidirecional (passado e futuro) para preencher. É melhor para compreensão e classificação, mas ruim para geração fluida.

Cross-Entropy Loss (Entropia Cruzada)

Na Aula: Descrita como a medida de quão longe a previsão do modelo (“cachorro”) está da realidade (“gato”), usada para guiar a correção dos pesos.
Deep Dive (Pesquisa): Matematicamente, a Cross-Entropy Loss para um token alvo calcula a divergência entre a distribuição de probabilidade prevista pelo modelo (softmax output) e a distribuição real (one-hot encoding do token correto).
- $L = - \sum y_{re a l} \cdot lo g (y_{p re d i t o})$
- O objetivo do pré-treinamento é minimizar $L$ sobre todo o corpus de treinamento. O “learning rate” (taxa de aprendizado) define o tamanho do passo que o otimizador (geralmente AdamW) dá na direção oposta ao gradiente do erro.

3. 🛠️ Engenharia: Arquiteturas e Infraestrutura

Padrão: Next Token Prediction em Escala

Funcionamento: O ciclo de engenharia envolve:
1. Data Pipeline: Coleta (Common Crawl, GitHub), limpeza (deduplicação, remoção de PII) e Tokenização (Byte-Pair Encoding - BPE).
2. Arquitetura: Transformer (geralmente Decoder-only com mecanismos de atenção como FlashAttention para eficiência).
3. Treinamento Distribuído: Paralelismo de dados e de modelo (sharding) através de milhares de GPUs.
Exemplo da Aula: O professor cita o modelo lendo “O céu é…” e prevendo “azul” (alta probabilidade) ou “nublado”, ajustando-se se errar.
Referência Externa: O framework Megatron-LM (NVIDIA) ou DeepSpeed (Microsoft) são os padrões da indústria para treinar esses modelos gigantescos, permitindo dividir o modelo entre várias GPUs quando ele não cabe na memória de uma só.

Nota do Pesquisador: Otimização de Pré-treinamento

Embora a aula foque no conceito básico, a engenharia moderna de pré-treinamento lida com Curriculum Learning (começar com textos mais fáceis e ir para os mais complexos) e o desafio de treinar com janelas de contexto longas (ex: 128k tokens do GPT-4 ou 1M+ do Gemini 1.5 Pro), o que exige modificações na atenção quadrática do Transformer original.

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

Paper Fundamental: “Attention Is All You Need” (Vaswani et al., 2017) [arXiv:1706.03762]. A base de tudo.
Paper sobre Escala: “Training Compute-Optimal Large Language Models” (Hoffmann et al., 2022 - DeepMind). Conhecido como o paper do Chinchilla. Ele provou que a maioria dos modelos (como GPT-3 original) eram sub-treinados e que deveríamos aumentar os dados, não apenas os parâmetros.
Paper sobre GPT-3: “Language Models are Few-Shot Learners” (Brown et al., 2020). Demonstrou que o pré-treinamento massivo gera capacidades emergentes (meta-learning).
Dataset: “The Pile” (EleutherAI) ou “RedPajama”. Exemplos open-source dos tipos de dados usados para treinar modelos como Llama.

5. ⚠️ Pontos de Atenção e Trade-offs

Custo Computacional Exorbitante: O professor alerta sobre o custo. Treinar um modelo de fronteira custa de dezenas a centenas de milhões de dólares. Isso centraliza o poder em poucas empresas (Big Techs).
Conhecimento Estático (Cutoff Date): O pré-treinamento “congela” o conhecimento do modelo no tempo. O modelo não sabe o que aconteceu ontem, a menos que usemos técnicas como RAG (Retrieval-Augmented Generation) posteriormente.
Viés e Toxicidade: Como o modelo aprende padrões da internet sem filtro humano inicial, ele absorve vieses, estereótipos e toxicidade presentes nos dados brutos. Isso exige uma fase posterior pesada de alinhamento (Fine-tuning/RLHF).
Alucinações: O modelo aprende a probabilidade estatística das palavras, não a “verdade”. Se “a Terra é plana” aparecer estatisticamente o suficiente em contextos específicos, ele pode completar a frase assim sem entender a física.

6. 📝 Quiz Prático

Qual é a principal diferença entre a abordagem CLM (Causal Language Modeling) e MLM (Masked Language Modeling)?

a) CLM mascara palavras no meio, MLM prevê a próxima palavra.

b) CLM é usado para gerar imagens, MLM para texto.

c) CLM prevê o próximo token baseado no passado (unidirecional), MLM preenche lacunas usando contexto bidirecional.
No contexto de pré-treinamento, o que é a “Loss Function” (Função de Perda)?

a) Uma função que apaga dados inúteis do dataset.

b) Uma métrica matemática que calcula a divergência entre a previsão do modelo e o dado real, guiando a atualização dos pesos.

c) O custo financeiro de alugar as GPUs.
Por que dizemos que o pré-treinamento é “Auto-supervisionado”?

a) Porque o modelo supervisiona a si mesmo criando novos códigos.

b) Porque os dados de entrada (texto) já contêm a resposta (a próxima palavra), eliminando a necessidade de rotulagem humana manual.

c) Porque engenheiros supervisionam o modelo 24 horas por dia.
🔥 Pergunta Desafio (Researcher): De acordo com as leis de escala de Chinchilla (Hoffmann et al., 2022), se você dobrar o número de parâmetros do seu modelo, o que você deve fazer com a quantidade de dados de treinamento para manter a eficiência computacional ótima?

a) Manter a mesma quantidade de dados.

b) Dobrar a quantidade de dados (aumento proporcional).

c) Quadruplicar a quantidade de dados.

Gabarito: 1-c, 2-b, 3-b, 4-b

Cristian Araujo

Explorer

3.12 - Pré treinamento

1. ⚡ Resumo Expandido

2. 🔍 Deep Dive: Conceitos & Teoria

Aprendizado Auto-supervisionado (Self-Supervised Learning)

Causal Language Modeling (CLM) vs. Masked Language Modeling (MLM)

Cross-Entropy Loss (Entropia Cruzada)

3. 🛠️ Engenharia: Arquiteturas e Infraestrutura

Padrão: Next Token Prediction em Escala

Nota do Pesquisador: Otimização de Pré-treinamento

4. 📚 Bibliografia Estendida e Referências (Pesquisa)

5. ⚠️ Pontos de Atenção e Trade-offs

6. 📝 Quiz Prático

Recent Notes

10 - Fundamentos de RAG (Retrieval-Augmented Generation)

8 - Explorando Soluções e Fundamentos de Prompt Engineering

9 - Estratégias de Prompt Engineering

Table of Contents

Graph View