Nesta aula, o professor aprofunda o conhecimento sobre os fundamentos dos modelos de linguagem, explicando uma das primeiras e mais importantes abordagens estatísticas: os modelos N-grama. O objetivo é demonstrar a lógica por trás da previsão de palavras e, crucialmente, expor as limitações que levaram à necessidade de criar as redes neurais complexas que usamos hoje.

O que são N-gramas: A Estatística por Trás da Linguagem

O professor introduz os N-gramas como uma maneira de analisar textos através da frequência e da probabilidade de sequências de palavras. Em vez de entender o “significado”, esses modelos olham para a linguagem como um problema estatístico. Um N-grama é definido como uma sequência contígua de ‘n’ itens (palavras) em um texto.

Os principais tipos são detalhados:

  • 1-grama (ou unigrama): Representa uma única palavra. Um modelo baseado em unigramas analisaria apenas a frequência de palavras individuais em um texto, sem qualquer contexto de sequência.

  • 2-grama (ou bigrama): Representa um par de palavras consecutivas, como “inteligência artificial” ou “ciência de”. Este é o foco principal da aula.

  • 3-grama (ou trigrama): Uma sequência de três palavras, como “o modelo de linguagem”.

O Funcionamento do Modelo 2-grama (Bigrama)

A lógica do modelo de 2-gramas é baseada na Cadeia de Markov, uma premissa estatística que assume que a probabilidade de um evento futuro depende apenas do estado presente, ignorando todos os estados anteriores. Trazendo para a linguagem: o modelo assume que a probabilidade da próxima palavra depende unicamente da palavra que a precede.

O processo de funcionamento é o seguinte:

  1. Treinamento com um Corpus: O modelo é alimentado com um corpo de texto gigantesco (corpus), como todos os artigos da Wikipédia.

  2. Cálculo de Frequência: Ele “lê” todo o texto e conta a frequência de cada bigrama. Por exemplo, quantas vezes a sequência “céu é” é seguida pela palavra “azul”, quantas vezes por “grande”, etc.

  3. Criação de uma Tabela de Probabilidades: Com base nessas contagens, ele constrói uma tabela que define a probabilidade de uma palavra Wn ocorrer, dado que a palavra anterior foi Wn-1.

  4. Geração de Texto: Ao receber uma palavra inicial, como “céu”, o modelo consulta sua tabela de probabilidades para encontrar a palavra seguinte mais provável. Se a sequência mais comum no corpus for “céu azul”, ele escolherá “azul”. O processo então se repete: agora, usando “azul” como ponto de partida, ele buscará a próxima palavra mais provável, e assim por diante.

A Limitação Crítica: A Ausência de Contexto Amplo

O ponto mais importante da aula é a demonstração da falha fundamental dos modelos N-grama: sua incapacidade de compreender o contexto de longo prazo.

Para ilustrar isso, o professor usa um exemplo muito eficaz: Frase: “Eu cresci na França e aprendi a cultura e os costumes daquele país. Por isso, eu falo fluentemente…”

  • Raciocínio Humano: Um leitor humano, ao processar essa frase, retém a informação-chave “França”. O cérebro mantém esse contexto ativo e, ao chegar ao final, conclui que a palavra mais lógica para completar a frase é “francês”.

  • Raciocínio do Modelo 2-grama: O modelo é incapaz de fazer isso. Ao chegar na palavra “fluentemente”, ele aplica sua única regra: olhar para a palavra anterior. Ele então consulta sua base de dados para ver qual palavra mais comumente segue “fluentemente”. Dependendo do corpus de treinamento, essa palavra poderia ser “inglês”, “português” ou qualquer outra língua globalmente mais comum que “francês”. A informação vital (“França”), que apareceu no início da frase, foi completamente perdida, pois está fora da “janela de memória” de uma única palavra do modelo.

Essa “miopia” contextual impede que os modelos N-grama gerem textos que exijam coerência narrativa, raciocínio ou qualquer tipo de memória de longo prazo. Eles são eficazes para tarefas simples como autocompletar em um buscador, mas falham em aplicações mais complexas.

A aula conclui explicando que foi exatamente para resolver esse problema de contexto que a pesquisa em IA avançou para as Redes Neurais Recorrentes (RNNs) e, finalmente, para a arquitetura Transformer, que, com seu mecanismo de autoatenção, é capaz de analisar a frase inteira e ponderar a importância de todas as palavras para prever a próxima.


Pontos Relevantes da Aula

  • N-grama: Uma abordagem estatística que trata a linguagem como sequências de palavras (unigramas, bigramas, trigramas) e calcula a probabilidade de ocorrência entre elas.

  • Modelo 2-grama (Bigrama): Prevê a próxima palavra baseando-se apenas na palavra anterior, seguindo uma Cadeia de Markov.

  • Limitação Principal: A incapacidade de reter e utilizar o contexto de longo prazo. O modelo tem uma “memória” muito curta, o que o impede de gerar textos complexos e coerentes.

  • Ponte para o Futuro: A falha dos N-gramas em lidar com o contexto foi a principal motivação para o desenvolvimento das arquiteturas de redes neurais mais modernas (RNNs e Transformers) que são a base da IA Generativa atual.


Materiais Extras para Aprofundamento

  • Sobre Modelos N-grama:

    • [Artigo] Uma introdução intuitiva aos modelos de linguagem N-gram (Towards Data Science): Explica de forma clara o que são N-gramas, como as probabilidades são calculadas e onde eles ainda são úteis hoje. (Artigo em inglês, pode ser traduzido pelo navegador).

      • Link: https://towardsdatascience.com/an-intuitive-guide-to-n-gram-language-models-231458a2d16d
    • [Vídeo] Language Models - N-grams (Stanford University): Uma aula do renomado curso de PLN da Universidade de Stanford que aborda os modelos N-grama de uma perspectiva mais técnica e matemática. (Vídeo em inglês, com legendas).

      • Link: http://googleusercontent.com/youtube.com/3
  • Limitações e o Caminho para as Redes Neurais:

    • [Artigo] Da Estatística às Redes Neurais: A Evolução dos Modelos de Linguagem: Contextualiza os N-gramas como um passo fundamental, mas limitado, na história do PLN, explicando como suas falhas levaram diretamente ao desenvolvimento dos modelos baseados em redes neurais. (Em inglês).

      • Link: https://www.assemblyai.com/blog/the-evolution-of-language-models-from-statistical-methods-to-neural-networks/