
Nvidia Desenvolve Técnica que Reduz Custos de LLM em 8x Mantendo
TL;DR
A Nvidia introduz a técnica Dynamic Memory Sparsification (DMS), que reduz custos de memória em LLMs em até oito vezes sem perder precisão.
A Nvidia apresenta uma nova técnica chamada Dynamic Memory Sparsification (DMS), que diminui os custos de memória dos modelos de linguagem de grande porte em até **oito vezes**. Essa inovação permite que os modelos mantenham ou até aprimorem suas capacidades de raciocínio enquanto processam informações.
Com o DMS, a cache de valor-chave (KV), que armazena dados temporários durante o raciocínio dos modelos, é comprimida de forma eficiente. Pesquisas anteriores mostraram dificuldade em reduzir a cache sem comprometer a inteligência do modelo, mas a abordagem da Nvidia conseguiu descartar partes significativas da cache sem perda de precisão.
Desafios do Raciocínio em Modelos de Linguagem
Modelos de linguagem melhoram seu desempenho em tarefas complexas ao gerar tokens de "chain-of-thought" que detalham o seu raciocínio. No entanto, esse processo aumenta a demanda computacional devido ao crescimento linear da cache KV, que pode se tornar um obstáculo significativo em aplicações práticas.
O aumento do uso de memória nos GPUs resulta em **latência** e limita o número de usuários atendidos ao mesmo tempo. Piotr Nawrot, engenheiro da Nvidia, destaca: "A questão não é apenas sobre a quantidade de hardware, mas também se sua infraestrutura está processando 100 ou 800 threads de raciocínio pelo mesmo custo.".
Solucionar esse problema não é apenas uma questão técnica, mas também econômica, uma vez que o aumento dos custos operacionais pode afetar as empresas. Métodos anteriores, que utilizavam regras fixas como "janela deslizante" para manter apenas os tokens mais recentes, muitas vezes resultavam em perda de informações cruciais.
Funcionamento do Dynamic Memory Sparsification
A técnica DMS modifica os modelos existentes, permitindo que gerenciem sua própria memória de maneira inteligente. Em vez de seguir uma regra rígida para deleção, o DMS treina os modelos para identificar quais tokens são essenciais e quais podem ser descartados.
Nawrot explica: "Não é apenas uma adivinhação sobre a importância; o modelo aprende uma política que preserva explicitamente a distribuição final de saída". O DMS adapta modelos pré-treinados, como Llama 3 ou Qwen 3, permitindo que se tornem autocomprimíveis sem a necessidade de treinamento desde o princípio.
Um recurso importante do DMS é o mecanismo de "evicção retardada", que permite que tokens considerados não importantes permaneçam acessíveis por um tempo antes de serem excluídos, garantindo que informações relevantes sejam integradas antes da eliminação.
DMS em Ação
Para validar a técnica, a Nvidia aplicou o DMS a modelos de raciocínio como Qwen-R1 e Llama 3.2, testando-os em benchmarks desafiadores. Os resultados indicam uma notável melhora no desempenho evitando a compressão associada a uma maior dificuldade em entender contextos longos.
Nos testes com o benchmark AIME 24, o modelo Qwen-R1 32B, equipado com DMS, obteve **12.0 pontos** a mais em comparação com um modelo padrão, tudo isso sem aumentar os requisitos de memória. Isso ressalta que o modelo pode desenvolver um raciocínio mais profundo sem o custo adicional habitual.
Esses avanços em eficiência também se traduzem em economia de hardware, permitindo que um único servidor manuseie até **cinco vezes mais** consultas simultaneamente, mantendo a qualidade. O NVidia DMS é uma adição significativa à biblioteca KVPress, com implementação simplificada.
Perspectivas Futuras da Gestão de Memória
O DMS representa uma mudança em como a gestão de memória pode se integrar nos sistemas de inteligência artificial, sendo compatível com arquiteturas emergentes como Multi-Head Latent Attention (MLA). Essa combinação poderá resultar em ganhos de eficiência ainda maiores.
À medida que as empresas evoluem de chatbots simples para sistemas complexos de raciocínio, a redução de custos na inferência se torna uma prioridade. Técnicas como o DMS são diferenciais para escalar essas capacidades de forma sustentável. "Mal arranhamos a superfície do que é possível," conclui Nawrot, referindo-se ao futuro do DMS em expandir as fronteiras do raciocínio em modelos de linguagem.
Conteudo selecionado e editado com assistencia de IA. Fontes originais referenciadas acima.


