GPT-5 vs Claude 5 vs Gemini 3: qual ganha em programação real?
OpenAI, Anthropic e Google lançaram suas gerações novas em janelas de 90 dias. Decidimos fazer algo diferente: 50 tarefas reais tiradas de PRs em projetos open-source com mais de 10k stars no GitHub. Tarefas que envolvem ler 5-30 arquivos, entender padrões existentes e escrever código que faz parte de uma codebase de verdade.
Resultados crus
| Métrica | GPT-5 | Claude 5 Sonnet | Gemini 3 Pro |
|---|---|---|---|
| Sem revisão | 62% | 71% | 54% |
| Tempo médio | 2.3 min | 3.1 min | 1.8 min |
| Alucinou API | 14% | 4% | 22% |
| Custo 1M output | $60 | $75 | $50 |
O que cada um faz melhor
Claude 5 Sonnet ganha em refatoração, leitura crítica de PRs e arquitetura. Quase nunca inventa funções inexistentes.
GPT-5 brilha em exploração de problemas mal definidos. Ideação técnica, decomposição de tarefas, debug interativo.
Gemini 3 Pro domina em volume + custo. Para scripts, batch jobs, ele é 30-40% mais barato. Janela de 1M tokens útil.
- Claude 5 quase não alucina (4%)
- GPT-5 melhor em problemas abertos
- Gemini 3 mais barato
- Todos suportam function calling
- Claude mais lento
- GPT-5 mais caro em output
- Nenhum fica sozinho em produção sem revisão
Livros e ferramentas pra subir o jogo
Como nós testamos
Setup: 50 PRs reais clonados de repos open-source (Next.js, Django, Rust crates). Cada modelo recebia: codebase como contexto, descrição do bug, deve produzir patch funcional. Avaliamos: passa em testes? Idiomático ao projeto? Inventou API?
Cenários de uso real — para quem vale
- Engenheiro sênior — Claude 5 para refactor crítico
- Tech lead — GPT-5 para arquitetura e design docs
- Júnior aprendendo — Gemini 3 (mais barato, suficiente para básico)
- Time pequeno — Use os 3 com balanço (Claude qualidade, Gemini volume, GPT exploração)
FAQ — Dúvidas frequentes
Qual posso usar com Cursor IDE?
Cursor Pro suporta os 3. Recomendo Claude 5 para edits, GPT-5 para chat exploratório.
Posso rodar Claude offline?
Não. Anthropic não libera weights. Para offline, use Llama 70B local.
Vale assinatura Pro de cada um?
Para uso profissional pesado: Claude Pro ($20). Para casual: ChatGPT Plus + free Gemini cobre 95%.
GPT-5 ainda é o líder em raciocínio?
Em benchmarks acadêmicos sim. Em código real prático, Claude 5 ganha.
Veredito: não há “o melhor” universal. Use Claude 5 para qualidade, Gemini 3 para custo, GPT-5 para exploração.
Como comparar LLMs de forma justa em 2026
O instinto é olhar para benchmarks oficiais — MMLU, GPQA, ARC — mas eles contam só parte da história. Modelos diferentes brilham em coisas diferentes, e o resultado do seu uso depende muito mais do tipo de tarefa que você joga neles do que do ranking médio do mês.
Três dimensões definem o que realmente importa para o usuário:
Raciocínio profundo. Tarefas que exigem várias etapas de lógica, matemática complexa ou conexões entre informações distantes do prompt. É onde os modelos mais novos tendem a se separar dos antigos — e onde GPT-5, Claude 5 e Gemini 3 brigam mais entre si.
Linguagem natural e estilo. Soar humano, manter um tom consistente, traduzir entre registros (formal, casual, técnico). Aqui Claude tem fama de ser mais “natural” para escrita longa, enquanto GPT-5 costuma ser mais “rápido no gatilho” para resposta curta. Gemini 3, com integração ao mundo Google, brilha em respostas baseadas em dados atuais.
Multimodalidade. Imagens, áudio, vídeo. Gemini 3 lidera por design (a Google montou multimodal desde o início); GPT-5 e Claude 5 evoluíram do texto e adicionaram visão depois — competitivos, mas com pequenas diferenças no que processam bem.
Para que escolher cada um
Em vez de eleger “o melhor”, pense em qual ferramenta para qual trabalho:
| Tipo de tarefa | Recomendação prática |
|---|---|
| Programação e refatoração de código | Claude 5 ou GPT-5 (ambos sólidos; teste com seu stack) |
| Escrita longa, redação, análise crítica | Claude 5 tende a ser mais natural e fiel ao prompt |
| Pesquisa com dados recentes na web | Gemini 3 (integração nativa com Search) |
| Resposta rápida, conversa casual | GPT-5 (rápido, alto volume) |
| Análise de imagem/vídeo/PDF complexo | Gemini 3 (multimodal mais maduro) |
| Tarefas com forte raciocínio matemático | GPT-5 com modo “reasoning”; Claude 5 com extended thinking |
O que ignorar nas comparações
Benchmarks isolados são fáceis de manipular: cada laboratório escolhe os testes onde seu modelo brilha. Ranking de uma única semana também — modelos avançam em saltos. E “vibe checks” virais (“conta uma piada original!”) medem coisas pouco úteis no trabalho real.
O que vale: seu próprio caso de uso. Pegue 5-10 prompts que você faria de verdade no trabalho, rode em todos os três modelos durante uma semana, e veja quem entrega resultado que você usa. Isso supera qualquer benchmark.
Preço e disponibilidade
Os três têm planos gratuitos com limites, planos pagos no nível pessoal (~US$ 20/mês), e APIs com preço por token. GPT-5 e Claude 5 cobram por tokens de input e output separadamente; Gemini 3 segue o mesmo padrão. Para uso pesado, vale comparar o custo da sua tarefa específica — alguns modelos são mais baratos para entrada longa, outros para saída longa.
Perguntas frequentes
Qual LLM é “o melhor” hoje?
Não existe um melhor universal — cada um lidera em domínios diferentes. Para escrita longa e código, Claude 5; para pesquisa com web e multimodal, Gemini 3; para velocidade e versatilidade ampla, GPT-5. Use o que melhor resolve seu tipo de trabalho.
Esses modelos alucinam menos que os antigos?
Sim, significativamente — alucinação caiu em todas as gerações novas. Mas nenhum eliminou. Para informações críticas (datas, números, citações), verificar continua sendo regra.
Dá para usar mais de um modelo no mesmo trabalho?
Sim, e é uma prática crescente. Use um para esboço criativo, outro para fact-check, outro para tradução técnica. Cada um cobre as fraquezas do outro.
Vale pagar por API ou usar só a versão web/chat?
Para uso casual, a versão web/chat resolve. Para volume, integração com fluxo, ou processar muito conteúdo, a API compensa rápido — principalmente se você automatiza.
Modelos abertos (Llama, DeepSeek) já chegam perto?
Em raciocínio bruto, os melhores modelos abertos chegaram bem perto dos fechados de uma geração atrás — mas ainda há um gap em tarefas mais complexas. Para privacidade e custo, rodar local pode valer; para qualidade de fronteira, os três grandes ainda lideram.
