← Back to news
ZBuild News

Google Gemma 4: Guia Completo de Especificações, Benchmarks e Novidades (2026)

Tudo o que você precisa saber sobre o Google Gemma 4 — o primeiro lançamento do Gemma sob licença Apache 2.0. Abrange todos os 4 tamanhos de modelo (E2B, E4B, 26B MoE, 31B Dense), capacidades multimodais, modo de pensamento configurável, contexto de 256K, 85.2% MMLU Pro e requisitos de hardware para implantação local.

Published
2026-04-03T00:00:00.000Z
Author
ZBuild Team
Reading Time
15 min read
gemma 4google gemma 4gemma 4 releasegemma 4 benchmarksgemma 4 specsgemma 4 open source
Google Gemma 4: Guia Completo de Especificações, Benchmarks e Novidades (2026)
ZBuild Teampt
XLinkedIn

Principais Conclusões

O Google Gemma 4 é a família de modelos de pesos abertos (open-weight) mais capaz já lançada sob uma licença verdadeiramente permissiva. O modelo 31B Dense atinge 85.2% no MMLU Pro e ocupa a 3rd posição entre todos os modelos abertos no Arena AI — enquanto o 26B MoE alcança uma qualidade quase idêntica com apenas 3.8B active parameters. Pela primeira vez, o Gemma é lançado sob Apache 2.0, removendo todos os atritos de licenciamento que impediam a adoção comercial de gerações anteriores.


Google Gemma 4: Tudo o que Você Precisa Saber

Visão Geral do Lançamento

O Google DeepMind lançou o Gemma 4 em April 2, 2026, introduzindo quatro tamanhos de modelo construídos sobre a mesma base tecnológica do Gemini 3. Esta geração representa o maior salto na família Gemma em todas as dimensões: qualidade do modelo, capacidades multimodais, comprimento de contexto e termos de licenciamento.

As principais mudanças em relação ao Gemma 3:

  • Licenciamento Apache 2.0 — sem restrições de uso, sem licença personalizada, total liberdade comercial
  • Quatro tamanhos de modelo em vez de três, incluindo uma nova arquitetura MoE
  • Suporte multimodal nativo em todos os tamanhos (texto, imagens, vídeo, áudio)
  • Modo de pensamento configurável com cadeias de raciocínio de mais de 4,000 tokens
  • Janelas de contexto de 256K em modelos maiores (acima dos limites do Gemma 3)
  • 35+ idiomas suportados, pré-treinado em 140+ idiomas
  • Uso de ferramentas estruturadas para fluxos de trabalho de agentes

Os Quatro Tamanhos de Modelo

O Gemma 4 é lançado em quatro tamanhos distintos, cada um visando diferentes cenários de implantação:

ModeloParâmetrosParâmetros AtivosArquiteturaContextoModalidades
E2B2.3B efetivos2.3BDense128KTexto, Imagem, Vídeo, Áudio
E4B4.5B efetivos4.5BDense128KTexto, Imagem, Vídeo, Áudio
26B MoE26B total3.8BMixture of Experts256KTexto, Imagem
31B Dense31B31BDense256KTexto, Imagem

Fonte: Google AI Blog

E2B e E4B: Os Modelos de Borda (Edge)

Os menores modelos Gemma 4 são projetados para implantação em dispositivos (on-device). Com 2.3B e 4.5B de parâmetros efetivos, respectivamente, eles rodam em smartphones, tablets e laptops com apenas 5GB de RAM usando quantization de 4-bit.

O que torna esses modelos notáveis é a sua amplitude de modalidades. Apesar de serem os menores da família, o E2B e o E4B são os únicos modelos Gemma 4 que suportam todas as quatro modalidades de entrada: texto, imagens, vídeo e áudio. Esta é uma escolha de design deliberada — dispositivos de borda com câmeras e microfones se beneficiam mais das capacidades multimodais.

Ambos os modelos suportam janelas de contexto de 128K tokens, o que é generoso para a sua contagem de parâmetros e suficiente para a maioria dos casos de uso em dispositivos.

26B MoE: Eficiência Máxima

O modelo 26B Mixture of Experts é indiscutivelmente o modelo mais interessante da linha Gemma 4. Ele contém 26B de parâmetros totais, mas ativa apenas 3.8B de parâmetros para qualquer entrada específica — aproximadamente o mesmo custo computacional que o modelo E4B, mas com acesso a drasticamente mais conhecimento e capacidade.

No Arena AI, o 26B MoE ocupa a 6th posição entre todos os modelos abertos com uma pontuação de 1441, apesar de usar apenas 3.8B active parameters. Esta proporção de eficiência é sem precedentes — nenhum outro modelo atinge qualidade comparável com este custo computacional.

A arquitetura MoE roteia cada token através de sub-redes especialistas especializadas, permitindo que o modelo mantenha uma grande capacidade de conhecimento enquanto mantém o custo de inference baixo. Para cenários de implantação onde você precisa de raciocínio forte, mas tem memória de GPU limitada, o 26B MoE é a escolha ideal.

31B Dense: Qualidade Máxima

O modelo 31B Dense é o carro-chefe do Gemma 4. Cada parâmetro está ativo para cada token, proporcionando os resultados mais consistentes e de maior qualidade em todos os tipos de tarefas.

No Arena AI, o 31B Dense ocupa a 3rd posição entre todos os modelos abertos com uma pontuação de 1452. No MMLU Pro, ele atinge 85.2% — competitivo com modelos várias vezes maiores que o seu tamanho. A pontuação de 89.2% no AIME 2026 demonstra um forte raciocínio matemático, enquanto 74% no BigBench Extra Hard (acima dos 19% em gerações anteriores) mostra uma melhoria massiva em tarefas de raciocínio complexo.


Benchmarks: Os Dados Completos

Raciocínio e Conhecimento

Benchmark31B Dense26B MoENotas
MMLU Pro85.2%Conhecimento de nível de pós-graduação
AIME 202689.2%Matemática de competição
BigBench Extra Hard74%Acima de 19% na geração anterior
Arena AI Score1452 (3rd)1441 (6th)Rankings de modelos abertos

Fonte: Relatório técnico do Google DeepMind

BigBench Extra Hard: O Resultado de Destaque

O salto de 19% para 74% no BigBench Extra Hard merece atenção especial. Este benchmark testa raciocínio complexo de várias etapas, dedução lógica e tarefas que exigem compreensão genuína em vez de correspondência de padrões. Uma melhoria de 55 pontos percentuais em uma única geração sugere avanços fundamentais na arquitetura de raciocínio do Gemma 4, não apenas escala.

Essa melhoria está provavelmente ligada ao modo de pensamento configurável e à tecnologia subjacente do Gemini 3 sobre a qual o Gemma 4 foi construído. O modo de pensamento gera cadeias de raciocínio estendidas que ajudam o modelo a trabalhar em problemas complexos passo a passo.

Contexto dos Rankings Arena AI

O Arena AI classifica modelos com base em comparações de preferência humana direta. O 31B Dense marcando 1452 e ocupando a 3rd posição entre os modelos abertos o coloca acima de muitos modelos com significativamente mais parâmetros. Para contexto:

  • Os modelos acima dele são normalmente modelos de 70B+ parâmetros
  • O 26B MoE alcançando 1441 com apenas 3.8B active parameters é um avanço de eficiência
  • Ambos os modelos superam o anterior Gemma 3 27B por uma margem significativa

Capacidades Multimodais

Compreensão de Imagem

Todos os quatro modelos Gemma 4 processam imagens nativamente. As capacidades incluem:

  • Descrição e análise de imagem — compreensão detalhada do conteúdo visual
  • OCR e análise de documentos — extração de texto de imagens, recibos, capturas de tela
  • Interpretação de gráficos e diagramas — compreensão de visualizações de dados
  • Raciocínio visual — responder perguntas que exigem a compreensão de relações espaciais

Vídeo e Áudio (Apenas E2B/E4B)

Os modelos menores E2B e E4B adicionam processamento nativo de vídeo e áudio:

  • Compreensão de vídeo — análise de conteúdo de vídeo sem extração quadro a quadro
  • Transcrição e compreensão de áudio — processamento de fala e áudio ambiental
  • Raciocínio cross-modal — responder perguntas que abrangem entradas de texto, imagem, vídeo e áudio

Essa escolha de design reflete o foco do Google na implantação em borda (edge). Dispositivos móveis capturam vídeo e áudio nativamente, então os modelos projetados para esses dispositivos suportam essas modalidades.


Modo de Pensamento Configurável

O Gemma 4 introduz um modo de pensamento configurável que gera mais de 4,000 tokens de raciocínio interno antes de produzir uma resposta. Isso é semelhante às capacidades de pensamento estendido vistas nos modelos da Anthropic e na série o da OpenAI, mas implementado em um modelo de pesos abertos.

Como Funciona

Quando o modo de pensamento está ativado, o modelo:

  1. Recebe o prompt de entrada
  2. Gera uma cadeia de raciocínio interna (visível ou oculta, dependendo da configuração)
  3. Usa a cadeia de raciocínio para produzir uma resposta final de maior qualidade

O modo de pensamento pode ser alternado por solicitação, permitindo que os desenvolvedores:

  • Ativem o pensamento para tarefas complexas de matemática, lógica, codificação e análise
  • Desativem o pensamento para consultas simples, chat e aplicações sensíveis à latência
  • Ajustem a profundidade do pensamento com base na complexidade esperada da tarefa

Impacto na Qualidade

O modo de pensamento é o principal impulsionador por trás do forte desempenho do Gemma 4 em benchmarks. A pontuação de 89.2% no AIME 2026 e de 74% no BigBench Extra Hard foram alcançadas com o modo de pensamento ativado. Sem o modo de pensamento, essas pontuações seriam notavelmente menores — semelhante ao padrão visto em outros modelos com capacidades de raciocínio estendido.


Apache 2.0: Por que a Mudança de Licença é Importante

As gerações anteriores do Gemma eram lançadas sob a licença personalizada do Google para o Gemma, que incluía restrições sobre:

  • Uso em certas aplicações
  • Termos de redistribuição
  • Limitações de implantação comercial para uso em larga escala

O Gemma 4 muda para Apache 2.0, a mesma licença usada por projetos como Kubernetes, TensorFlow e Apache HTTP Server. Isso significa:

  • Sem restrições de uso — use para qualquer coisa, incluindo produtos comerciais
  • Sem limitações de redistribuição — compartilhe pesos modificados livremente
  • Sem requisitos de atribuição além da licença — aviso padrão da Apache 2.0
  • Sem necessidade de aprovação do Google — implante em qualquer escala sem permissão
  • Compatível com outras licenças de código aberto — fácil de integrar em projetos existentes

Para empresas e startups que constroem produtos sobre modelos abertos, isso remove a sobrecarga de revisão jurídica que a licença personalizada do Gemma exigia. Também torna o Gemma 4 diretamente comparável aos modelos Llama da Meta (que usam sua própria licença personalizada com algumas restrições) e o posiciona como a família de modelos abertos de alta qualidade licenciada de forma mais permissiva disponível.


Suporte a Idiomas

O Gemma 4 suporta 35+ idiomas para inference e foi pré-treinado em 140+ idiomas. Isso o torna um dos modelos abertos mais multilíngues disponíveis, ao lado dos modelos da Qwen, que também enfatizam uma ampla cobertura de idiomas.

Os idiomas suportados incluem os principais idiomas do mundo (inglês, chinês, espanhol, francês, alemão, japonês, coreano, árabe, hindi, português, russo), bem como muitos idiomas com menor pegada digital. O pré-treinamento em 140+ idiomas significa que o modelo tem alguma capacidade em idiomas além dos 35+ oficialmente suportados, embora a qualidade possa variar.

Para aplicações voltadas a públicos globais ou mercados que não falam inglês, esse amplo suporte a idiomas reduz a necessidade de fine-tuning especializado ou modelos separados por idioma.


Uso de Ferramentas Estruturadas e Fluxos de Trabalho de Agentes

O Gemma 4 inclui suporte nativo para uso de ferramentas estruturadas, permitindo fluxos de trabalho de agentes onde o modelo pode:

  • Chamar APIs externas com solicitações formatadas corretamente
  • Analisar respostas estruturadas de ferramentas e serviços
  • Encadear várias chamadas de ferramentas para completar tarefas complexas
  • Lidar com erros e tentativas na execução de ferramentas

Essa capacidade é particularmente relevante para a integração com o Android Studio, onde o Gemma 4 potencializa fluxos de trabalho locais de codificação por agentes. O modelo pode entender o contexto do código, sugerir mudanças, executar ferramentas e iterar — tudo rodando localmente na máquina do desenvolvedor sem enviar código para servidores externos.

Para desenvolvedores que constroem agentes de AI, o uso de ferramentas estruturadas do Gemma 4 fornece uma base totalmente local e privada. Combinado com a licença Apache 2.0, isso permite construir e implantar aplicações de agentes sem qualquer dependência de provedores de modelos externos.


Requisitos de Hardware

Implantação Local via Ollama

ModeloRAM Necessária (4-bit)RAM Necessária (FP16)Recomendação de GPU
E2B~5 GB~5 GBQualquer GPU moderna / apenas CPU
E4B~5 GB~9 GBQualquer GPU moderna / apenas CPU
26B MoE~18 GB~52 GBRTX 4090 / RTX 5090
31B Dense~20 GB~62 GBRTX 4090 / RTX 5090

Fonte: Biblioteca de modelos Ollama

Os modelos E2B e E4B são projetados especificamente para implantação em borda. Eles rodam confortavelmente em laptops, CPUs de desktop e até mesmo em alguns smartphones. Os modelos 26B MoE e 31B Dense exigem hardware de GPU dedicado, mas permanecem acessíveis para desenvolvedores individuais com GPUs de consumo.

Otimização NVIDIA

A NVIDIA lançou versões otimizadas do Gemma 4 para GPUs RTX, fornecendo:

  • Inference mais rápida através de otimizações de kernel específicas para GPU
  • Melhor utilização de memória em placas das séries RTX 4000 e 5000
  • Integração TensorRT para implantação em produção
  • Suporte a CUDA graph para redução de sobrecarga em inference repetida

Fonte: NVIDIA AI Blog


O que Mudou em Relação ao Gemma 3

RecursoGemma 3Gemma 4
LicençaLicença Gemma (restrita)Apache 2.0 (irrestrita)
Tamanhos de Modelo3 tamanhos4 tamanhos (adicionado MoE)
Janela de ContextoAté 128KAté 256K
ModalidadesTexto, ImagemTexto, Imagem, Vídeo, Áudio
Modo de PensamentoNãoSim (configurável)
Uso de FerramentasLimitadoUso de ferramentas estruturadas
Idiomas30+35+ (pré-treinado em 140+)
BigBench Extra Hard19%74%

Cada dimensão melhorou. As mudanças mais impactantes para os desenvolvedores são a licença Apache 2.0 (remove atritos jurídicos), o modo de pensamento (melhora a qualidade em tarefas difíceis) e a arquitetura MoE (fornece qualidade de ponta com uma fração do custo computacional).


Casos de Uso Práticos

Codificação e Desenvolvimento

O uso de ferramentas estruturadas e o modo de pensamento do Gemma 4 o tornam eficaz para:

  • Autocompletar e geração de código local
  • Revisão de código e detecção de bugs
  • Geração automatizada de testes
  • Escrita de documentação
  • Fluxos de trabalho de codificação por agentes no Android Studio

Processamento de Documentos

Com janelas de contexto de 256K e suporte multimodal:

  • Processar bases de código inteiras ou documentos longos em um único prompt
  • Extrair informações de imagens de documentos, recibos e formulários
  • Analisar gráficos e visualizações de dados
  • Resumir extensos artigos de pesquisa ou documentos jurídicos

Construção de Aplicações com Inteligência Artificial

Para desenvolvedores que constroem produtos que incorporam capacidades de AI, o Gemma 4 fornece uma camada de inference forte, local ou auto-hospedada. O modelo lida com a inteligência — entendendo consultas, gerando respostas, processando imagens — enquanto seu framework de aplicação cuida do restante. Ferramentas como o ZBuild podem acelerar a construção da estrutura da aplicação (frontend, backend, banco de dados, implantação), permitindo que você foque o esforço de desenvolvimento na camada de integração de AI onde as capacidades do Gemma 4 mais importam.

Implantação em Borda e Mobile

Os modelos E2B e E4B abrem casos de uso que eram anteriormente impossíveis com modelos abertos:

  • Assistentes no dispositivo que funcionam offline
  • Recursos de AI que preservam a privacidade e nunca enviam dados para servidores externos
  • Processamento de vídeo e áudio em tempo real em dispositivos móveis
  • AI embarcada em aplicações de IoT e robótica

Como Começar

Ollama (Caminho mais Rápido)

# Install Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Pull and run Gemma 4
ollama run gemma4:e2b      # Smallest, runs anywhere
ollama run gemma4:e4b      # Small, broader capability
ollama run gemma4:26b-moe  # MoE, best efficiency
ollama run gemma4:31b      # Dense, highest quality

Hugging Face

Todos os modelos Gemma 4 estão disponíveis no Hugging Face com integração total com transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("google/gemma-4-31b")
tokenizer = AutoTokenizer.from_pretrained("google/gemma-4-31b")

Google AI Studio

O Google fornece acesso gratuito à API do Gemma 4 através do AI Studio para experimentação e prototipagem, com o Vertex AI disponível para implantação em produção.


Gemma 4 no Cenário Competitivo

Para entender onde o Gemma 4 se situa no ecossistema mais amplo:

ModeloParâmetrosLicençaMMLU ProArena AIContexto
Gemma 4 31B31BApache 2.085.2%1452256K
Gemma 4 26B MoE26B (3.8B ativos)Apache 2.01441256K
Llama 4 Maverick400B (~17B ativos)Meta License79.6%14171M
Llama 4 Scout109B (~17B ativos)Meta License~140010M
Qwen 3.5 72B72BApache 2.081.4%1438128K
Qwen 3.5 MoE397B (~22B ativos)Apache 2.083.1%1449128K

O Gemma 4 31B atinge a maior pontuação MMLU Pro e ranking Arena AI entre os modelos abertos — com o menor número total de parâmetros. Essa eficiência de parâmetros é um resultado direto da base tecnológica do Gemini 3 e do modo de pensamento configurável.

A história de eficiência do modelo 26B MoE é ainda mais convincente. Ele ocupa o 6th lugar no Arena AI ativando apenas 3.8B de parâmetros por token. Nenhum outro modelo atinge uma proporção de qualidade por computação comparável. Para implantações de produção onde o custo de inference escala com o uso, essa eficiência se traduz diretamente em economia de custos.

Comparado com modelos proprietários, os benchmarks do Gemma 4 31B são competitivos com as ofertas de nível médio da Anthropic e da OpenAI. Embora os principais modelos proprietários ainda liderem nas tarefas mais difíceis, a lacuna diminuiu drasticamente — e o Gemma 4 vem com custo zero por token e total liberdade da Apache 2.0.


Veredito

O Gemma 4 estabelece um novo padrão para modelos de pesos abertos em 2026. A combinação do licenciamento Apache 2.0, quatro tamanhos de modelo bem diferenciados, suporte multimodal nativo, modo de pensamento configurável e pontuações de benchmark competitivas com modelos muito maiores o torna a família de modelos abertos mais prática disponível.

O 31B Dense é a escolha certa quando você precisa de qualidade máxima. O 26B MoE é a escolha certa quando você precisa de qualidade forte com custo computacional mínimo. O E2B e o E4B são as escolhas certas para implantação em borda e AI no dispositivo. Pela primeira vez na família Gemma, a licença não limita nenhum desses casos de uso.


Fontes

Back to all news
Enjoyed this article?
FAQ

Common questions

O que é o Google Gemma 4 e quando foi lançado?+
O Google Gemma 4 é a família de modelos de pesos abertos (open-weight) da Google DeepMind lançada em 2 de abril de 2026. Inclui 4 tamanhos — E2B (2.3B efetivos), E4B (4.5B efetivos), 26B MoE (3.8B ativos / 26B totais) e 31B Dense. Todos os modelos são lançados sob Apache 2.0, a licença mais permissiva já usada para um lançamento Gemma.
O Gemma 4 é verdadeiramente open source?+
Sim. O Gemma 4 é a primeira geração Gemma lançada sob a licença Apache 2.0, que permite uso comercial irrestrito, modificação e redistribuição sem exigir permissão do Google. Os modelos Gemma anteriores usavam a licença Gemma personalizada do Google, que impunha restrições de uso.
Qual janela de contexto o Gemma 4 suporta?+
Os modelos menores (E2B and E4B) suportam janelas de contexto de 128K tokens. Os modelos maiores (26B MoE and 31B Dense) suportam janelas de contexto de 256K tokens. Esta é uma melhoria significativa em relação aos limites de contexto do Gemma 3 e permite o processamento de bases de código inteiras ou documentos longos em um único prompt.
O Gemma 4 pode processar imagens, vídeo e áudio?+
Sim. Todos os quatro modelos Gemma 4 são nativamente multimodais e suportam entradas de texto e imagem. Os modelos E2B e E4B vão além, com capacidades nativas de processamento de vídeo e áudio. Isso torna o Gemma 4 a primeira família de modelos de pesos abertos onde os modelos menores têm o suporte de modalidade mais amplo.
Como funciona o modo de pensamento do Gemma 4?+
O Gemma 4 inclui um modo de pensamento (thinking mode) configurável que gera mais de 4.000 tokens de raciocínio interno antes de produzir uma resposta. Este raciocínio em cadeia de pensamento (chain-of-thought) pode ser ativado ou desativado por solicitação, permitindo que os desenvolvedores escolham entre respostas mais rápidas para tarefas simples e raciocínio mais profundo para problemas complexos como matemática, lógica e programação.
De qual hardware preciso para rodar o Gemma 4 localmente?+
O Gemma 4 E2B e E4B rodam em dispositivos com apenas 5GB RAM usando 4-bit quantization, incluindo smartphones e laptops. O modelo 26B MoE requer aproximadamente 18GB RAM e o 31B Dense requer aproximadamente 20GB RAM. Todos os modelos rodam via Ollama com otimização para GPU NVIDIA RTX disponível.

Construir com ZBuild

Transforme sua ideia em um app funcional — sem programação.

Mais de 46.000 desenvolvedores construíram com ZBuild neste mês

Experimente você mesmo

Descreva o que você quer — ZBuild constrói para você.

Mais de 46.000 desenvolvedores construíram com ZBuild neste mês
More Reading

Related articles

Guia Completo Claude Sonnet 4.6: Benchmarks, Preços, Recursos e Quando Usar (2026)
2026-03-27T00:00:00.000Z

Guia Completo Claude Sonnet 4.6: Benchmarks, Preços, Recursos e Quando Usar (2026)

O guia definitivo para o Claude Sonnet 4.6 — modelo de nível médio da Anthropic lançado em 17 de fevereiro de 2026. Abrange todos os benchmarks (SWE-bench 79.6%, OSWorld 72.5%, ARC-AGI-2 58.3%), preços de API ($3/$15 por milhão de tokens), extended thinking, context window de 1M e comparações detalhadas com Opus 4.6 e GPT-5.4.

Lançamento do DeepSeek V4: Especificações, Benchmarks e Tudo o Que Sabemos Sobre o Modelo Open-Source de 1T (2026)
2026-03-27T00:00:00.000Z

Lançamento do DeepSeek V4: Especificações, Benchmarks e Tudo o Que Sabemos Sobre o Modelo Open-Source de 1T (2026)

Um guia completo sobre o DeepSeek V4 — o modelo open-source de 1 trilhão de parâmetros com memória Engram, contexto de um milhão de tokens e 81% no SWE-Bench. Cobrimos arquitetura, benchmarks, preços, cronograma de lançamento e como ele se compara ao GPT-5.4 e ao Claude Opus 4.6.

Guia Completo do Grok 5: Data de Lançamento, Parâmetros 6T, Colossus 2 e as Ambições de AGI da xAI (2026)
2026-03-27T00:00:00.000Z

Guia Completo do Grok 5: Data de Lançamento, Parâmetros 6T, Colossus 2 e as Ambições de AGI da xAI (2026)

Tudo o que se sabe sobre o Grok 5 até março de 2026 — o modelo de 6 trilhões de parâmetros em treinamento no supercluster Colossus 2 da xAI. Cobrimos a data de lançamento adiada, especificações técnicas, a afirmação de 10% de AGI de Elon Musk, previsões de benchmark e o que isso significa para a indústria de AI.

Harness Engineering: O Guia Completo para Construir Sistemas para Agentes de IA e Codex em 2026
2026-03-27T00:00:00.000Z

Harness Engineering: O Guia Completo para Construir Sistemas para Agentes de IA e Codex em 2026

Aprenda harness engineering — a nova disciplina de design de sistemas que faz com que agentes de codificação de IA realmente funcionem em escala. Abrange o experimento de um milhão de linhas de Codex da OpenAI, princípios de ouro, camadas de dependência, arquitetura repository-first, garbage collection e implementação prática para sua própria equipe.