Visão Geral
Em 2017, pesquisadores da Google Brain publicaram "Attention Is All You Need", propondo a arquitetura Transformer que abandonou as redes recorrentes em favor de um mecanismo de atenção puro e paralelizável.
Acesso: arXiv:1706.03762 | Autores: Vaswani et al. — Google Brain | Ano: 2017
---
O Problema que Resolveu
As RNNs processavam texto sequencialmente, impedindo paralelização e causando o problema do gradiente desaparecente em sequências longas. O Transformer resolveu ambos com o mecanismo de atenção multi-cabeça: cada token processa todos os outros simultaneamente — fórmula central: Attention(Q,K,V) = softmax(QK^T/sqrt(dk)) × V.
---
Contribuições Principais
- Self-Attention: cada posição atende a todas as outras em uma única operação matricial
- Multi-Head Attention: múltiplas cabeças capturam diferentes tipos de relações semânticas
- Positional Encoding: injeção de informação de posição sem recorrência
- Paralelização total: treinamento eficiente em GPUs sem gargalo sequencial
---
Resultados
No benchmark WMT 2014 (inglês-alemão), o Transformer atingiu 28.4 BLEU superando todos os modelos com apenas 1/4 do custo. Mais de 120.000 citações no Google Scholar fazem deste um dos papers mais influentes da história da computação.
---
Por que É Relevante em 2025
Toda a IA generativa moderna usa esta arquitetura: GPT-4, Claude 4, Gemini 1.5, Llama 3, Mistral — todos são Transformers. Entender os princípios do Transformer é essencial para profissionais que trabalham com prompt engineering, fine-tuning, RAG e desenvolvimento de aplicações de IA.
---
Referência Completa
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, L., & Polosukhin, I. (2017). Attention is all you need. *NeurIPS 2017*. > DOI: https://arxiv.org/abs/1706.03762