GPT-5 vs Claude 5 vs Gemini 3: qual ganha em programação real?
OpenAI, Anthropic e Google lançaram suas gerações novas em janelas de 90 dias. Decidimos fazer algo diferente: 50 tarefas reais tiradas de PRs em projetos open-source com mais de 10k stars no GitHub. Tarefas que envolvem ler 5-30 arquivos, entender padrões existentes e escrever código que faz parte de uma codebase de verdade.
Resultados crus
| Métrica | GPT-5 | Claude 5 Sonnet | Gemini 3 Pro |
|---|---|---|---|
| Sem revisão | 62% | 71% | 54% |
| Tempo médio | 2.3 min | 3.1 min | 1.8 min |
| Alucinou API | 14% | 4% | 22% |
| Custo 1M output | $60 | $75 | $50 |
O que cada um faz melhor
Claude 5 Sonnet ganha em refatoração, leitura crítica de PRs e arquitetura. Quase nunca inventa funções inexistentes.
GPT-5 brilha em exploração de problemas mal definidos. Ideação técnica, decomposição de tarefas, debug interativo.
Gemini 3 Pro domina em volume + custo. Para scripts, batch jobs, ele é 30-40% mais barato. Janela de 1M tokens útil.
- Claude 5 quase não alucina (4%)
- GPT-5 melhor em problemas abertos
- Gemini 3 mais barato
- Todos suportam function calling
- Claude mais lento
- GPT-5 mais caro em output
- Nenhum fica sozinho em produção sem revisão
Livros e ferramentas pra subir o jogo
Como nós testamos
Setup: 50 PRs reais clonados de repos open-source (Next.js, Django, Rust crates). Cada modelo recebia: codebase como contexto, descrição do bug, deve produzir patch funcional. Avaliamos: passa em testes? Idiomático ao projeto? Inventou API?
Cenários de uso real — para quem vale
- Engenheiro sênior — Claude 5 para refactor crítico
- Tech lead — GPT-5 para arquitetura e design docs
- Júnior aprendendo — Gemini 3 (mais barato, suficiente para básico)
- Time pequeno — Use os 3 com balanço (Claude qualidade, Gemini volume, GPT exploração)
FAQ — Dúvidas frequentes
Qual posso usar com Cursor IDE?
Cursor Pro suporta os 3. Recomendo Claude 5 para edits, GPT-5 para chat exploratório.
Posso rodar Claude offline?
Não. Anthropic não libera weights. Para offline, use Llama 70B local.
Vale assinatura Pro de cada um?
Para uso profissional pesado: Claude Pro ($20). Para casual: ChatGPT Plus + free Gemini cobre 95%.
GPT-5 ainda é o líder em raciocínio?
Em benchmarks acadêmicos sim. Em código real prático, Claude 5 ganha.
Veredito: não há “o melhor” universal. Use Claude 5 para qualidade, Gemini 3 para custo, GPT-5 para exploração.
