Home Inteligência Artificial e Tecnologia Kimi K2.7-Code: 30% menos tokens, mas benchmarks geram dúvidas
Inteligência Artificial e Tecnologia

Kimi K2.7-Code: 30% menos tokens, mas benchmarks geram dúvidas

Share
Share

O Kimi K2.7-Code, lançado pela Moonshot AI nesta semana, promete reduzir em 30% o uso de thinking tokens em relação ao seu antecessor K2.6 — uma economia direta nos custos de inferência para equipes que operam workflows agênticos. Mas pesquisadores e desenvolvedores que testaram o modelo de forma independente já estão questionando se os números divulgados pela empresa resistem a avaliações externas.

O que é o Kimi K2.7-Code e como ele difere do K2.6

O K2.7-Code é uma atualização open-source da família de modelos de codificação K2 da Moonshot AI. Ele mantém a mesma arquitetura mixture-of-experts com trilhões de parâmetros do K2.6 e é compatível com a API padrão da OpenAI, o que facilita a adoção por equipes que já utilizam o modelo anterior em ambientes de produção.

A mudança técnica central está na forma como o modelo gera código de baixo nível. Enquanto o K2.6 criava implementações reutilizando bibliotecas existentes e frameworks estabelecidos, o K2.7-Code escreve implementações diretamente. Segundo a Moonshot AI, isso resulta em melhor generalização para linguagens como Rust, Go e Python, além de tarefas de frontend, DevOps e otimização de performance.

Dois detalhes operacionais merecem atenção:

  • O modelo funciona exclusivamente em modo de raciocínio (thinking mode) e não suporta ajuste de temperatura — ela está fixada em 1.0.
  • Os pesos estão disponíveis no HuggingFace sob licença Modified MIT, com suporte a implantação via vLLM ou SGLang.

Os benchmarks da Moonshot AI e suas limitações

A empresa divulgou ganhos expressivos em três avaliações: 21,8% no Kimi Code Bench v2, 11% no Program Bench e 31,5% no MLS Bench Lite. O problema é que os três são benchmarks proprietários desenvolvidos e executados pela própria Moonshot AI.

Os melhores PlayStation®5 em promoção você encontra aqui

Os melhores PlayStation®5 em promoção você encontra aqui

Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.

O modelo não foi submetido ao DeepSWE, um benchmark independente de codificação que separa os modelos por uma margem de 70 pontos — contra apenas 30 pontos no SWE-Bench Pro. Essa diferença torna o DeepSWE um sinal muito mais discriminante para equipes que configuram sistemas de roteamento de modelos.

O desenvolvedor Sugumaran Balasubramaniyan, que construiu um roteador de tarefas para a plataforma Hermes Agent usando o DeepSWE como referência, confrontou publicamente a Moonshot AI sobre essas escolhas. Em postagem no X, ele escreveu: “Respeitosamente, todo modelo melhora dois dígitos em seu próprio conjunto de testes.” Ele apontou que o K2.6 marcou 24% no DeepSWE — empatado com o GPT-5.4-mini — e questionou se a Moonshot submeteria o K2.7-Code ao mesmo benchmark. Balasubramaniyan afirmou que levou 13 rodadas de revisão para validar os dados do benchmark para seu roteador e que direcionaria tarefas de codificação ao K2.7-Code caso os números independentes se confirmem.

O que testes independentes revelaram

O pesquisador Elliot Arledge comparou o K2.7-Code com o K2.6 e o Claude Fable 5 no KernelBench-Hard, um benchmark público focado em otimização de kernels de GPU. Ele publicou os logs completos em kernelbench.com.

O resultado foi ambíguo. Em cinco dos seis problemas testados, o K2.7-Code produziu kernels Triton reais e autorais — enquanto o K2.6 havia usado wrappers de bibliotecas. Isso confirma a mudança de abordagem anunciada pela Moonshot AI. No entanto:

Os melhores Monitores em promoção você encontra aqui

Os melhores Monitores em promoção você encontra aqui

Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.

  • Dois desses kernels falharam por bugs do próprio modelo.
  • No teste de kernel MoE, o score regrediu de 0,222 (K2.6) para 0,157 (K2.7-Code).

A conclusão de Arledge foi direta: “K2.7 é mais honesto, mas não é mais capaz.” Ele observou ainda que o Claude Fable 5 liderou todas as células em que não falhou honestamente.

O que isso significa na prática para equipes de desenvolvimento

A redução de 30% nos thinking tokens tem valor prático imediato, especialmente para pipelines agênticos com muitas chamadas encadeadas. Como o K2.7-Code é compatível com a API do K2.6, equipes podem substituir o modelo sem alterar a arquitetura do gateway e testar o impacto nos próprios workloads antes de qualquer compromisso maior.

Mas o contexto dos benchmarks importa. Os ganhos de desempenho divulgados pela Moonshot AI partem de avaliações internas, e os resultados externos até agora indicam um modelo mais transparente em suas limitações — não necessariamente mais eficiente em tarefas complexas.

Pontos de atenção antes de adotar o K2.7-Code em produção

  • Benchmarks proprietários não substituem avaliações independentes como o DeepSWE.
  • A temperatura fixa em 1.0 elimina a possibilidade de ajustar o determinismo da saída, o que pode ser limitante em certos contextos.
  • A ausência de resultados no DeepSWE dificulta comparações diretas com outros modelos usados em roteadores de tarefas.
  • Testar o modelo contra seu próprio conjunto de dados é o caminho mais seguro antes de ajustar os pesos do gateway.

O K2.6 chegou a liderar o ranking semanal do OpenRouter em abril — uma classificação baseada em decisões reais de roteamento por desenvolvedores, não em benchmarks autodeclarados. Se o K2.7-Code vai repetir esse desempenho dependerá de resultados que a Moonshot AI ainda não apresentou de forma independente. Para equipes que já operam o K2.6, a troca é de baixo risco para avaliação interna — mas a decisão final deve esperar por dados mais robustos.

Mais informações sobre benchmarks independentes de LLMs para codificação podem ser encontradas em HuggingFace, onde os pesos do K2.7-Code também estão disponíveis para download.

Os melhores Computadores em promoção você encontra aqui

Os melhores Computadores em promoção você encontra aqui

Ver oferta na Amazon →Como Associado da Amazon, este site pode ganhar comissoes por compras qualificadas.

Perguntas frequentes

O que mudou tecnicamente entre o Kimi K2.6 e o K2.7-Code?

O K2.7-Code abandona o uso de wrappers de bibliotecas para gerar código e passa a escrever implementações diretamente. Isso torna o modelo mais transparente sobre suas limitações, mas testes independentes indicam que nem sempre resulta em código mais eficiente ou correto.

A redução de 30% em thinking tokens do K2.7-Code foi confirmada por testes independentes?

Não. Os 30% de redução nos thinking tokens são um número divulgado pela própria Moonshot AI. Pesquisadores independentes avaliaram o desempenho em tarefas de codificação e encontraram resultados mistos, com regressão em alguns benchmarks públicos.

O Kimi K2.7-Code foi avaliado no benchmark DeepSWE?

Não. Até o momento do lançamento, o K2.7-Code não foi submetido ao DeepSWE, que é considerado um benchmark independente mais discriminante para modelos de codificação. O K2.6, por comparação, marcou 24% nesse benchmark.

É seguro substituir o K2.6 pelo K2.7-Code em ambientes de produção?

A substituição é tecnicamente simples, pois o K2.7-Code usa a mesma API compatível com OpenAI. No entanto, especialistas recomendam validar o modelo contra os próprios dados e workloads antes de ajustar pesos em sistemas de roteamento, dado que os benchmarks externos ainda são limitados.

Share
Written by
Jaldemir Ramalho Marques

Jaldemir Ramalho Marques é o editor responsável pelo ReviewTechIA. Escreve análises, comparativos e guias de compra sobre tecnologia, com foco em smartphones, inteligência artificial e casa inteligente — sempre priorizando informação prática e honesta para ajudar o leitor a comprar melhor.

Leave a comment

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Related Articles

Brad Smith alerta setor de IA sobre protestos de universitários

Brad Smith, presidente da Microsoft, publicou um alerta direto aos líderes do...

Windows 11 libera IA local via GPU Nvidia, mas só para devs

A Microsoft deu um passo importante ao liberar o uso de GPUs...

Itaú oferece 1 ano grátis do Gemini AI Plus para clientes

O Itaú está oferecendo um ano gratuito do Gemini AI Plus para...

DiffusionGemma: geração de texto em paralelo até 6x mais rápida

DiffusionGemma: o modelo do Google que gera texto como uma imagem é...

WordPress Center Meritking Giriş: Meritking Canlı Destek Ve İletişim Marsbahis Giriş: Marsbahis Casino Ve Slot Oyunları, Marsbahis Spor Bahisleri Mavibet Giriş: Mavibet Bonus Ve Kampanyalar, Mavibet Giriş Adresi Melhores Notebooks para Trabalho de 2026: 10 Modelos Para Trabalhar com Máxima Produtividade Inteligência Artificial: conceitos essenciais para iniciantes GitHub Copilot: alta de preços com cobrança por tokens em 2026