O Qwen3.7-Plus, novo modelo de linguagem da Alibaba, chega ao mercado com capacidades multimodais — processando texto, vídeo e imagens — a um custo de US$ 0,40 por milhão de tokens na entrada e US$ 1,60 na saída. O problema: pela primeira vez, a empresa abandona o modelo de código aberto que consagrou a família Qwen globalmente, adotando uma licença comercial fechada.
O que muda em relação ao Qwen3.7-Max
O Qwen3.7-Max, lançado poucas semanas antes, era restrito a texto e custava US$ 2,50/US$ 7,50 por milhão de tokens na entrada e saída, respectivamente. O Qwen3.7-Plus representa uma redução de custo de 60% e adiciona a capacidade de analisar imagens, capturas de tela e vídeos — tarefas relevantes para criação de visuais corporativos e automação de processos que envolvem interfaces gráficas.
Ambos os modelos estão disponíveis apenas via API proprietária da Alibaba Cloud e pelo Qwen Chat, sem acesso a pesos abertos.
Posição de preço no mercado de LLMs
Em termos de custo total por milhão de tokens (entrada + saída), o Qwen3.7-Plus fica em US$ 2,00 — acima do MiniMax-M3 (US$ 1,50 em promoção por tempo limitado) e do DeepSeek-V4-Flash (US$ 0,42), mas significativamente mais barato que modelos como GPT-5.4 da OpenAI (US$ 17,50), Claude Opus 4.8 da Anthropic (US$ 30,00) e o próprio Qwen3.7-Max (US$ 10,00).
Entre os modelos multimodais de alto desempenho disponíveis atualmente, ele se posiciona como uma das opções mais acessíveis para uso corporativo em grande escala.
Janela de contexto de 1 milhão de tokens e o parâmetro preserve_thinking
O modelo opera com uma janela de contexto de 1 milhão de tokens e reserva até 256 mil tokens para processamento interno de cadeia de raciocínio. Na prática, isso significa que um agente de migração de nuvem pode ingerir uma base de código inteira, mapear dependências e avaliar casos extremos antes de executar qualquer comando.
Um diferencial técnico relevante é o parâmetro de API chamado preserve_thinking. Introduzido já na geração Qwen 3.6 — presente tanto no modelo aberto Qwen3.6-27B quanto nos proprietários —, ele mantém os blocos internos de raciocínio entre turnos consecutivos de uma conversa.
Sem esse recurso, agentes que executam tarefas longas e multi-etapas tendem a perder o fio lógico das ações anteriores, forçando reprocessamento desnecessário do histórico em cache. Com o preserve_thinking ativo, o modelo retém o raciocínio original ao longo de toda a operação.
Essa abordagem não é exclusiva da Alibaba. A Anthropic chama o recurso equivalente de Extended Thinking no Claude Opus 4.8, enquanto a OpenAI implementa um mecanismo criptografado de repasse de raciocínio no GPT-5.5. O preserve_thinking é, essencialmente, a terminologia da Alibaba para o que se tornou padrão entre os principais laboratórios de IA.
Desempenho em benchmarks: competitivo, mas não no topo
Os resultados em avaliações técnicas mostram um modelo sólido, embora ainda abaixo dos líderes proprietários norte-americanos em diversas métricas gerais.
Terminal Bench 2.0-Terminus
Essa avaliação mede a capacidade do modelo de executar código em nível de terminal de forma segura e iterativa. O Qwen3.7-Plus obteve 70,3 pontos, superando o DeepSeek-V4-Pro Max (67,9) e o Gemini-3.1 Pro (63,5).
ScreenSpot Pro
Neste benchmark de visão computacional, que exige compreensão localizada de interfaces gráficas, o modelo alcançou 79,0 pontos — resultado expressivamente superior ao GPT-5.4 (67,4) e ao Claude Opus 4.6 (49,5).
Em contrapartida, em tarefas gerais de raciocínio e nas métricas onde modelos como Claude Opus 4.8 e GPT-5.4 se destacam, o Qwen3.7-Plus ainda fica aquém.
O que as empresas podem ganhar com o Qwen3.7-Plus
Para arquitetos de sistemas corporativos, o modelo foi pensado como substituto de modelos de fronteira caros — como os de nível GPT-5 ou Claude Max — em fluxos de trabalho de alta frequência. Os casos de uso mais adequados incluem:
- Automação de processos robóticos (RPA) que envolvem leitura de interfaces visuais;
- Pipelines de engenharia de dados com operações repetitivas e iterativas;
- Geração de código combinada com interpretação de layouts de tela;
- Agentes autônomos de terminal que referenciam grandes repositórios de código.
As APIs são totalmente compatíveis com o padrão OpenAI, o que reduz o esforço de migração para equipes que já utilizam essa infraestrutura.
Preços de cache tornam agentes de alta frequência viáveis
Um aspecto relevante para operações em escala é a política de cache da Alibaba. O processamento padrão custa US$ 0,40 por milhão de tokens, mas leituras a partir de um cache explicitamente criado — como um repositório base estático ou um kit de interface corporativa reutilizado em centenas de loops automatizados — caem para US$ 0,04 por milhão de tokens. Essa redução de 90% torna iterações multi-turno economicamente viáveis em grande escala.
A ausência de código aberto é um problema real para empresas
Até recentemente, a estratégia da Alibaba era centrada em lançar modelos poderosos com licenças abertas — Apache 2.0 ou variantes similares. Isso atraiu empresas como a Airbnb, que adotaram modelos da família Qwen justamente pela flexibilidade do código aberto.
O Qwen3.7-Plus rompe com essa tradição. Sem acesso aos pesos do modelo, equipes jurídicas e de segurança de grandes corporações precisarão avaliar com mais cuidado questões de conformidade, soberania de dados e dependência de fornecedor antes de adotar o modelo em ambientes de produção críticos.
Para empresas que precisam de auditabilidade total ou operam em setores regulados, a ausência de pesos abertos pode ser um fator eliminatório — independentemente do desempenho ou do preço competitivo.
Mais detalhes sobre o ecossistema de modelos da Alibaba estão disponíveis na documentação oficial do Qwen.
Perguntas frequentes
Quanto custa o Qwen3.7-Plus por milhão de tokens?
O Qwen3.7-Plus custa US$ 0,40 por milhão de tokens na entrada e US$ 1,60 na saída, totalizando US$ 2,00. Leituras a partir de cache explícito caem para US$ 0,04 por milhão de tokens na entrada.
O Qwen3.7-Plus é de código aberto?
Não. Diferente de versões anteriores da família Qwen, o Qwen3.7-Plus está disponível apenas sob licença comercial fechada, acessível via API proprietária da Alibaba Cloud e pelo Qwen Chat, sem disponibilização de pesos abertos.
Quais tipos de entrada o Qwen3.7-Plus suporta?
O Qwen3.7-Plus é multimodal e suporta texto, imagens, capturas de tela e vídeo. Isso o diferencia do Qwen3.7-Max, que processa apenas texto.
O que é o parâmetro preserve_thinking do Qwen3.7-Plus?
É um parâmetro de API que mantém os blocos internos de raciocínio entre turnos de uma conversa. Ele evita que o modelo perca o fio lógico em tarefas longas e multi-etapas, funcionando de forma similar ao Extended Thinking da Anthropic e ao mecanismo de repasse de raciocínio da OpenAI.
Leave a comment