DiffusionGemma: o modelo do Google que gera texto como uma imagem é renderizada
O DiffusionGemma é o novo modelo experimental de código aberto do Google que aplica o princípio da difusão — usado em geradores de imagens como o Stable Diffusion — diretamente à geração de texto. Lançado esta semana sob a licença Apache 2.0, ele é capaz de gerar um bloco de 256 tokens em paralelo, chegando a 1.288 tokens por segundo em hardware Nvidia H200, o que representa cerca de seis vezes a velocidade de modelos autoregressivos tradicionais em cenários de baixa concorrência.
Por que a geração autoregressiva tem limites
Modelos de linguagem convencionais funcionam como uma máquina de escrever: produzem um token de cada vez, da esquerda para a direita, sem possibilidade de revisar o que já foi gerado. Quando um token errado é confirmado, todos os tokens seguintes já estão condicionados a esse erro.
Esse modelo funciona bem em servidores de nuvem com alto volume de requisições simultâneas, onde as GPUs ficam constantemente ocupadas. Mas em inferência local ou em ambientes com poucos usuários simultâneos, a GPU fica ociosa na maior parte do tempo — e aí está o problema que o DiffusionGemma resolve.
Como o DiffusionGemma funciona na prática
Em vez de gerar tokens em sequência, o DiffusionGemma parte de um bloco de 256 posições preenchidas com tokens aleatórios — uma espécie de tela em branco — e executa várias passagens de refinamento sobre o bloco inteiro de uma vez.
A cada passagem, o modelo avalia todas as posições simultaneamente e consolida aquelas em que tem maior confiança. Posições incertas são aleatorizadas novamente e reavaliadas na próxima rodada, usando o que foi resolvido anteriormente como referência. O processo continua até que posições suficientes se estabilizem e ancoram o restante do texto.
Os melhores Monitores em promoção você encontra aqui
Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.
Autocorreção e contexto bidirecional
Duas características emergem diretamente dessa arquitetura:
- Autocorreção: o modelo identifica posições de baixa confiança e as reavalia em passagens seguintes, algo impossível em modelos autoregressivos.
- Contexto bidirecional: cada posição do bloco observa todas as outras simultaneamente, inclusive tokens que aparecem mais adiante na sequência — o que favorece tarefas de geração com restrições estruturais.
O Google demonstrou essas propriedades com um solucionador de Sudoku ajustado por fine-tuning. O modelo base não resolveu nenhum puzzle. Após o ajuste com um conjunto de dados de Sudoku, ele atingiu 80% de acerto, convergindo em apenas 12 etapas de eliminação de ruído em vez de 48.
Arquitetura técnica e suporte ao vLLM
O DiffusionGemma é construído sobre o backbone Gemma 4 e opera como um modelo Mixture of Experts de 26 bilhões de parâmetros, ativando apenas 3,8 bilhões durante a inferência. Quantizado, cabe em 18 GB de VRAM — compatível com placas como a Nvidia RTX 4090 e 5090.
É também o primeiro modelo de difusão de linguagem com suporte nativo na plataforma de inferência open source vLLM. Isso exigiu trabalho de engenharia adicional: ao contrário de um batch típico no vLLM, onde o mesmo tipo de atenção é aplicado a todas as requisições, o DiffusionGemma alterna entre atenção causal e bidirecional conforme cicla entre leitura do prompt, refinamento do bloco e confirmação dos tokens.
A equipe implementou troca de atenção por requisição nos backends Triton e FlashAttention 4, reutilizando o caminho de decodificação especulativa existente para o loop de refinamento. A nova interface ModelState foi projetada para suportar outros modelos de difusão no vLLM à medida que surgirem.
Os melhores Celulares em promoção você encontra aqui
Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.
Onde o ganho de velocidade se aplica — e onde não se aplica
Cenários favoráveis
- Inferência local em hardware dedicado com um único usuário.
- Aplicações de baixa concorrência, onde a GPU tem capacidade de computação ociosa e a memória é o gargalo.
- Tarefas com restrições estruturais: preenchimento de código, geração de dados estruturados e problemas em que o resultado correto depende de contexto ainda não gerado.
Cenários desfavoráveis
- Servidores de alta demanda na nuvem, onde centenas de requisições simultâneas já saturavam o hardware disponível. Nesse caso, a geração em paralelo do DiffusionGemma oferece retornos decrescentes.
- Geração de texto aberto, onde o Gemma 4 padrão ainda entrega qualidade superior.
O próprio Google reconheceu no post de lançamento que a qualidade geral do DiffusionGemma é inferior à do Gemma 4 convencional, recomendando o modelo padrão para aplicações que exijam máxima qualidade.
Diferença em relação à decodificação especulativa
Vale distinguir o DiffusionGemma da decodificação especulativa, técnica já estabelecida em inferência de LLMs. Na decodificação especulativa, um modelo menor antecipa alguns tokens, e o modelo principal os verifica em uma única passagem — a arquitetura do modelo principal não muda.
O DiffusionGemma é diferente: ele não adivinha tokens futuros. Ele cria uma tela ruidosa de 256 tokens e a desnaturaliza repetidamente em paralelo. Não é um truque de decodificação, mas um paradigma de geração distinto, conforme destacado pelo pesquisador Andrew Kuncevich em análise publicada no X.
O que isso significa para equipes técnicas
O DiffusionGemma é servido via endpoint OpenAI-compatível no vLLM, sem necessidade de mudanças no pipeline específicas para difusão. Para equipes que operam inferência local ou de baixa concorrência, a opção de arquitetura se expandiu.
Até agora, reduzir a latência de geração em hardware dedicado significava usar um modelo menor e aceitar a perda de qualidade. O DiffusionGemma oferece um terceiro caminho: mesmo footprint de parâmetros, hardware consumer, suporte imediato no vLLM — com uma troca explícita de qualidade por velocidade que o Google não esconde.
Os melhores Home Theater em promoção você encontra aqui
Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.
Para cargas de trabalho com restrições estruturais, a atenção bidirecional vale uma avaliação. Para geração aberta de alta qualidade, o Gemma 4 padrão continua sendo a escolha mais segura.
Perguntas frequentes
O que é o DiffusionGemma e como ele difere de modelos de linguagem tradicionais?
O DiffusionGemma é um modelo experimental do Google que aplica o princípio de difusão à geração de texto, gerando 256 tokens em paralelo em vez de um por vez. Diferente de modelos autoregressivos, ele parte de um bloco aleatório e refina todas as posições simultaneamente, podendo se autocorrigir ao longo do processo.
Qual é a velocidade do DiffusionGemma em comparação com modelos autoregressivos?
Em um único Nvidia H200 com batch size 1, o DiffusionGemma atinge 1.288 tokens por segundo na versão FP8, o que representa cerca de 6 vezes a velocidade de um modelo autoregressivo de referência, segundo benchmarks publicados pelo vLLM.
O DiffusionGemma substitui o Gemma 4 padrão?
Não. O próprio Google reconhece que a qualidade geral do DiffusionGemma é inferior à do Gemma 4 convencional. Ele é recomendado para cenários de inferência local, baixa concorrência e tarefas com restrições estruturais, enquanto o Gemma 4 padrão continua sendo preferível para geração de texto aberto de alta qualidade.
Em quais tipos de hardware o DiffusionGemma pode ser executado?
Quantizado, o DiffusionGemma ocupa 18 GB de VRAM e é compatível com GPUs consumer como a Nvidia RTX 4090 e 5090, além de servidores enterprise com arquiteturas Hopper e Blackwell. O modelo foi otimizado com kernels NVFP4 em parceria com a NVIDIA.

Leave a comment