
Reduza custos de inferência em AI com a plataforma Blackwell da
TL;DR
A Nvidia anunciou que sua plataforma Blackwell permite que quatro principais provedores de inferência reduzam os custos por token em até 10 vezes.
Redução de custos de inferência em AI
A Nvidia anunciou que sua plataforma Blackwell permite que quatro principais provedores de inferência reduzam os custos por token em até 10 vezes. Essa análise, divulgada na quinta-feira, destaca como melhorias em hardware e software colaboram para essa redução.
As melhorias foram válidas para setores como saúde, jogos e atendimento ao cliente. Estudo de implantação da Baseten, DeepInfra, Fireworks AI e Together AI revela como as empresas escalam a inteligência artificial (AI) de projetos piloto para milhões de usuários.
Modelo de otimização e suas implicações
Segundo a análise, a redução de custos depende do uso conjunto do hardware Blackwell, de pilhas de software otimizadas e da transição de modelos proprietários para modelos open-source. A simples melhoria de hardware resultou em ganhos de até 2x, mas a redução maior requer a adoção de formatos de baixa precisão, como o NVFP4.
Dion Harris, diretor sênior de soluções HPC e AI da Nvidia, afirmou: "O desempenho é o que impulsiona a redução do custo de inferência". Essa lógica implica que o aumento do throughput, a capacidade de processar mais dados simultaneamente, resulta em preços menores por token.
Casos de sucesso na prática
A Nvidia detalhou quatro casos de sucesso que ilustram a combinação de infraestrutura Blackwell, pilhas de software otimizadas e modelos open-source. Um exemplo é a Sully.ai, que cortou os custos de inferência em saúde em 90%, ao transitar para modelos open-source, economizando milhões de minutos de médicos.
Outro caso, o Latitude, reportou uma redução de 4x nos custos de inferência para sua plataforma AI Dungeon, diminuindo o custo por milhão de tokens de 20 centavos (na plataforma Hopper) para 5 centavos após a adoção do NVFP4. Essa mudança técnica foi crucial para otimizar custos.
A referência à Fundação Sentient mostra uma melhoria de 25% a 50% na eficiência de custos em sua plataforma de chat, graças ao uso do stack otimizado para inferência da Fireworks AI. Esse aumento na eficiência é vital, especialmente quando a latência é um fator crítico.
Fatores técnicos que influenciam a redução de custos
A gama de reduções de 4x a 10x reflete diferentes combinações de otimizações, com três fatores principais em destaque:
- Adoção de formatos de precisão: O NVFP4, por exemplo, reduz o número de bits necessários para representar pesos de modelos, permitindo maior computação por ciclo do GPU.
- Arquitetura de modelo: Modelos de mistura de especialistas (MoE) aproveitam a comunicação rápida proporcionada pela arquitetura NVLink do Blackwell, tornando-os mais eficientes.
- Integração de pilhas de software: A abordagem de co-design da Nvidia facilita a otimização do hardware e software, resultando em uma melhoria no desempenho.
Avaliação e testes necessários
Empresas que planejam migrar para a inferência com Blackwell devem avaliar se suas cargas de trabalho justificam mudanças de infraestrutura. Shruti Koparkar, da Nvidia, sugere que as empresas devem considerar o volume de solicitações e a sensibilidade à latência das aplicações.
Testes com cargas de produção reais são essenciais. Koparkar observa que métricas de throughput podem não refletir condições reais de operação. O modelo de abordagem em etapas utilizado pela Latitude pode ser um guia prático à medida que as empresas avaliam melhorias de custo e eficiência.
Variedade de provedores e considerações econômicas
Embora a Blackwell seja uma opção promissora, outras plataformas como a AMD MI300 e o Google TPU também oferecem alternativas. Avaliações sólidas devem considerar os custos totais, incluindo overhead operacional, e não apenas o custo por token, para determinar a abordagem mais econômica.
Com o mercado de inferência em constante evolução, as empresas devem estar prontas para explorar diferentes proveniências, otimizar seus workflows e, em última análise, adotar soluções que melhor atendam às suas necessidades específicas.
Conteudo selecionado e editado com assistencia de IA. Fontes originais referenciadas acima.


