Sem produto(s) no carrinho.

Home Inteligência Artificial tecnologia Qwen3.7-Plus: multimodal e barato, mas sem código aberto

tecnologia

Qwen3.7-Plus: multimodal e barato, mas sem código aberto

Redator ReviewTechIA2 de junho de 20264 Mins read6

O Qwen3.7-Plus, novo modelo de linguagem da Alibaba, chega ao mercado com capacidades multimodais — processando texto, vídeo e imagens — a um custo de US$ 0,40 por milhão de tokens na entrada e US$ 1,60 na saída. O problema: pela primeira vez, a empresa abandona o modelo de código aberto que consagrou a família Qwen globalmente, adotando uma licença comercial fechada.

O que muda em relação ao Qwen3.7-Max

O Qwen3.7-Max, lançado poucas semanas antes, era restrito a texto e custava US$ 2,50/US$ 7,50 por milhão de tokens na entrada e saída, respectivamente. O Qwen3.7-Plus representa uma redução de custo de 60% e adiciona a capacidade de analisar imagens, capturas de tela e vídeos — tarefas relevantes para criação de visuais corporativos e automação de processos que envolvem interfaces gráficas.

Ambos os modelos estão disponíveis apenas via API proprietária da Alibaba Cloud e pelo Qwen Chat, sem acesso a pesos abertos.

Posição de preço no mercado de LLMs

Em termos de custo total por milhão de tokens (entrada + saída), o Qwen3.7-Plus fica em US$ 2,00 — acima do MiniMax-M3 (US$ 1,50 em promoção por tempo limitado) e do DeepSeek-V4-Flash (US$ 0,42), mas significativamente mais barato que modelos como GPT-5.4 da OpenAI (US$ 17,50), Claude Opus 4.8 da Anthropic (US$ 30,00) e o próprio Qwen3.7-Max (US$ 10,00).

Entre os modelos multimodais de alto desempenho disponíveis atualmente, ele se posiciona como uma das opções mais acessíveis para uso corporativo em grande escala.

Janela de contexto de 1 milhão de tokens e o parâmetro preserve_thinking

O modelo opera com uma janela de contexto de 1 milhão de tokens e reserva até 256 mil tokens para processamento interno de cadeia de raciocínio. Na prática, isso significa que um agente de migração de nuvem pode ingerir uma base de código inteira, mapear dependências e avaliar casos extremos antes de executar qualquer comando.

Um diferencial técnico relevante é o parâmetro de API chamado preserve_thinking. Introduzido já na geração Qwen 3.6 — presente tanto no modelo aberto Qwen3.6-27B quanto nos proprietários —, ele mantém os blocos internos de raciocínio entre turnos consecutivos de uma conversa.

Sem esse recurso, agentes que executam tarefas longas e multi-etapas tendem a perder o fio lógico das ações anteriores, forçando reprocessamento desnecessário do histórico em cache. Com o preserve_thinking ativo, o modelo retém o raciocínio original ao longo de toda a operação.

Essa abordagem não é exclusiva da Alibaba. A Anthropic chama o recurso equivalente de Extended Thinking no Claude Opus 4.8, enquanto a OpenAI implementa um mecanismo criptografado de repasse de raciocínio no GPT-5.5. O preserve_thinking é, essencialmente, a terminologia da Alibaba para o que se tornou padrão entre os principais laboratórios de IA.

Desempenho em benchmarks: competitivo, mas não no topo

Os resultados em avaliações técnicas mostram um modelo sólido, embora ainda abaixo dos líderes proprietários norte-americanos em diversas métricas gerais.

Terminal Bench 2.0-Terminus

Essa avaliação mede a capacidade do modelo de executar código em nível de terminal de forma segura e iterativa. O Qwen3.7-Plus obteve 70,3 pontos, superando o DeepSeek-V4-Pro Max (67,9) e o Gemini-3.1 Pro (63,5).

ScreenSpot Pro

Neste benchmark de visão computacional, que exige compreensão localizada de interfaces gráficas, o modelo alcançou 79,0 pontos — resultado expressivamente superior ao GPT-5.4 (67,4) e ao Claude Opus 4.6 (49,5).

Em contrapartida, em tarefas gerais de raciocínio e nas métricas onde modelos como Claude Opus 4.8 e GPT-5.4 se destacam, o Qwen3.7-Plus ainda fica aquém.

O que as empresas podem ganhar com o Qwen3.7-Plus

Para arquitetos de sistemas corporativos, o modelo foi pensado como substituto de modelos de fronteira caros — como os de nível GPT-5 ou Claude Max — em fluxos de trabalho de alta frequência. Os casos de uso mais adequados incluem:

Automação de processos robóticos (RPA) que envolvem leitura de interfaces visuais;
Pipelines de engenharia de dados com operações repetitivas e iterativas;
Geração de código combinada com interpretação de layouts de tela;
Agentes autônomos de terminal que referenciam grandes repositórios de código.

As APIs são totalmente compatíveis com o padrão OpenAI, o que reduz o esforço de migração para equipes que já utilizam essa infraestrutura.

Preços de cache tornam agentes de alta frequência viáveis

Um aspecto relevante para operações em escala é a política de cache da Alibaba. O processamento padrão custa US$ 0,40 por milhão de tokens, mas leituras a partir de um cache explicitamente criado — como um repositório base estático ou um kit de interface corporativa reutilizado em centenas de loops automatizados — caem para US$ 0,04 por milhão de tokens. Essa redução de 90% torna iterações multi-turno economicamente viáveis em grande escala.

A ausência de código aberto é um problema real para empresas

Até recentemente, a estratégia da Alibaba era centrada em lançar modelos poderosos com licenças abertas — Apache 2.0 ou variantes similares. Isso atraiu empresas como a Airbnb, que adotaram modelos da família Qwen justamente pela flexibilidade do código aberto.

O Qwen3.7-Plus rompe com essa tradição. Sem acesso aos pesos do modelo, equipes jurídicas e de segurança de grandes corporações precisarão avaliar com mais cuidado questões de conformidade, soberania de dados e dependência de fornecedor antes de adotar o modelo em ambientes de produção críticos.

Para empresas que precisam de auditabilidade total ou operam em setores regulados, a ausência de pesos abertos pode ser um fator eliminatório — independentemente do desempenho ou do preço competitivo.

Mais detalhes sobre o ecossistema de modelos da Alibaba estão disponíveis na documentação oficial do Qwen.

Perguntas frequentes

Quanto custa o Qwen3.7-Plus por milhão de tokens?

O Qwen3.7-Plus custa US$ 0,40 por milhão de tokens na entrada e US$ 1,60 na saída, totalizando US$ 2,00. Leituras a partir de cache explícito caem para US$ 0,04 por milhão de tokens na entrada.

O Qwen3.7-Plus é de código aberto?

Não. Diferente de versões anteriores da família Qwen, o Qwen3.7-Plus está disponível apenas sob licença comercial fechada, acessível via API proprietária da Alibaba Cloud e pelo Qwen Chat, sem disponibilização de pesos abertos.

Quais tipos de entrada o Qwen3.7-Plus suporta?

O Qwen3.7-Plus é multimodal e suporta texto, imagens, capturas de tela e vídeo. Isso o diferencia do Qwen3.7-Max, que processa apenas texto.

O que é o parâmetro preserve_thinking do Qwen3.7-Plus?

É um parâmetro de API que mantém os blocos internos de raciocínio entre turnos de uma conversa. Ele evita que o modelo perca o fio lógico em tarefas longas e multi-etapas, funcionando de forma similar ao Extended Thinking da Anthropic e ao mecanismo de repasse de raciocínio da OpenAI.

Previous post Perplexity AI lança orquestrador híbrido local-nuvem no Computex 2026

Next post Majorana 2: o chip quântico da Microsoft e a IA agêntica em P&D

Deixe um comentário Cancelar resposta

tecnologia

Gemma 4 12B: o modelo Google que roda localmente em laptops

O Gemma 4 12B é o novo modelo open-weights do Google com...

Redator ReviewTechIA3 de junho de 2026

tecnologia

Perplexity AI lança orquestrador híbrido local-nuvem no Computex 2026

Perplexity AI apresenta orquestrador híbrido local-nuvem no Computex 2026A Perplexity AI, startup...

Redator ReviewTechIA2 de junho de 2026

Melhores Notebooks para Trabalho de 2026: 10 Modelos Para Trabalhar com Máxima Produtividade

Avaliações de Produtos: Dicas para Escolher com Sabedoria

Echo Dot Max: Review Completo do Smart Speaker Premium

Gemma 4 12B: o modelo Google que roda localmente em laptops

Majorana 2: o chip quântico da Microsoft e a IA agêntica em P&D

Qwen3.7-Plus: multimodal e barato, mas sem código aberto

O que muda em relação ao Qwen3.7-Max

Posição de preço no mercado de LLMs

Janela de contexto de 1 milhão de tokens e o parâmetro preserve_thinking

Desempenho em benchmarks: competitivo, mas não no topo

Terminal Bench 2.0-Terminus

ScreenSpot Pro

O que as empresas podem ganhar com o Qwen3.7-Plus

Preços de cache tornam agentes de alta frequência viáveis

A ausência de código aberto é um problema real para empresas

Perguntas frequentes

Quanto custa o Qwen3.7-Plus por milhão de tokens?

O Qwen3.7-Plus é de código aberto?

Quais tipos de entrada o Qwen3.7-Plus suporta?

O que é o parâmetro preserve_thinking do Qwen3.7-Plus?

Leave a comment

Deixe um comentário Cancelar resposta

Explore more

Gemma 4 12B: o modelo Google que roda localmente em laptops

Perplexity AI lança orquestrador híbrido local-nuvem no Computex 2026

About us

Recent Posts

Echo Dot Max: Review Completo do Smart Speaker Premium

Recent Posts

Echo Dot Max: Review Completo do Smart Speaker Premium

Gemma 4 12B: o modelo Google que roda localmente em laptops

Recent Posts

Echo Dot Max: Review Completo do Smart Speaker Premium

Gemma 4 12B: o modelo Google que roda localmente em laptops

Atualização semanal

Boletim informativo semanal