Pular para conteúdo principal
Hoje: Hoje 19 de fevereiro de 2026
HubNews
Blockchain+
Cibersegurança+
Desenvolvimento+
Economia & Finanças+
Gaming+
Inteligência Artificial+
Hardware+
Startups
Blockchain+
Cibersegurança+
Desenvolvimento+
Economia & Finanças+
Gaming+
Inteligência Artificial+
Hardware+
Startups

HubNews

Receba semanalmente as principais novidades e análises sobre Inteligência Artificial diretamente em seu email.

Inscreva-se Gratuitamente

Notícias

  • Página Inicial
  • Feed
  • Guias
  • Produtos IA
  • Top
  • Deep Dives
  • Buscar

Mais

  • Jogos
  • Ferramentas
  • Assinar Grátis
  • Podcast

Informações

  • Sobre Nós
  • Contato
  • FAQ
  • Desenvolvedores
  • Patrocinadores

Legal

  • Política de Privacidade
  • Termos de Serviço

© 2026 HubNews.ai. Todos os direitos reservados.

Inteligência Artificial
Reduza custos de inferência em AI com a plataforma Blackwell da

Reduza custos de inferência em AI com a plataforma Blackwell da

TL;DR

A Nvidia anunciou que sua plataforma Blackwell permite que quatro principais provedores de inferência reduzam os custos por token em até 10 vezes.

venturebeat.com•12 de fevereiro de 2026•
4 min read
•0 visualizações

Redução de custos de inferência em AI

A Nvidia anunciou que sua plataforma Blackwell permite que quatro principais provedores de inferência reduzam os custos por token em até 10 vezes. Essa análise, divulgada na quinta-feira, destaca como melhorias em hardware e software colaboram para essa redução.

As melhorias foram válidas para setores como saúde, jogos e atendimento ao cliente. Estudo de implantação da Baseten, DeepInfra, Fireworks AI e Together AI revela como as empresas escalam a inteligência artificial (AI) de projetos piloto para milhões de usuários.

Modelo de otimização e suas implicações

Segundo a análise, a redução de custos depende do uso conjunto do hardware Blackwell, de pilhas de software otimizadas e da transição de modelos proprietários para modelos open-source. A simples melhoria de hardware resultou em ganhos de até 2x, mas a redução maior requer a adoção de formatos de baixa precisão, como o NVFP4.

Dion Harris, diretor sênior de soluções HPC e AI da Nvidia, afirmou: "O desempenho é o que impulsiona a redução do custo de inferência". Essa lógica implica que o aumento do throughput, a capacidade de processar mais dados simultaneamente, resulta em preços menores por token.

Casos de sucesso na prática

A Nvidia detalhou quatro casos de sucesso que ilustram a combinação de infraestrutura Blackwell, pilhas de software otimizadas e modelos open-source. Um exemplo é a Sully.ai, que cortou os custos de inferência em saúde em 90%, ao transitar para modelos open-source, economizando milhões de minutos de médicos.

Outro caso, o Latitude, reportou uma redução de 4x nos custos de inferência para sua plataforma AI Dungeon, diminuindo o custo por milhão de tokens de 20 centavos (na plataforma Hopper) para 5 centavos após a adoção do NVFP4. Essa mudança técnica foi crucial para otimizar custos.

A referência à Fundação Sentient mostra uma melhoria de 25% a 50% na eficiência de custos em sua plataforma de chat, graças ao uso do stack otimizado para inferência da Fireworks AI. Esse aumento na eficiência é vital, especialmente quando a latência é um fator crítico.

Fatores técnicos que influenciam a redução de custos

A gama de reduções de 4x a 10x reflete diferentes combinações de otimizações, com três fatores principais em destaque:

  • Adoção de formatos de precisão: O NVFP4, por exemplo, reduz o número de bits necessários para representar pesos de modelos, permitindo maior computação por ciclo do GPU.
  • Arquitetura de modelo: Modelos de mistura de especialistas (MoE) aproveitam a comunicação rápida proporcionada pela arquitetura NVLink do Blackwell, tornando-os mais eficientes.
  • Integração de pilhas de software: A abordagem de co-design da Nvidia facilita a otimização do hardware e software, resultando em uma melhoria no desempenho.

Avaliação e testes necessários

Empresas que planejam migrar para a inferência com Blackwell devem avaliar se suas cargas de trabalho justificam mudanças de infraestrutura. Shruti Koparkar, da Nvidia, sugere que as empresas devem considerar o volume de solicitações e a sensibilidade à latência das aplicações.

Testes com cargas de produção reais são essenciais. Koparkar observa que métricas de throughput podem não refletir condições reais de operação. O modelo de abordagem em etapas utilizado pela Latitude pode ser um guia prático à medida que as empresas avaliam melhorias de custo e eficiência.

Variedade de provedores e considerações econômicas

Embora a Blackwell seja uma opção promissora, outras plataformas como a AMD MI300 e o Google TPU também oferecem alternativas. Avaliações sólidas devem considerar os custos totais, incluindo overhead operacional, e não apenas o custo por token, para determinar a abordagem mais econômica.

Com o mercado de inferência em constante evolução, as empresas devem estar prontas para explorar diferentes proveniências, otimizar seus workflows e, em última análise, adotar soluções que melhor atendam às suas necessidades específicas.

Conteudo selecionado e editado com assistencia de IA. Fontes originais referenciadas acima.

Compartilhar

Fontes

venturebeat.com

Principal
https://venturebeat.com/infrastructure/ai-inference-costs-dropped-up-to-10x-on-nvidias-blackwell-but-hardware-is

12 de fev. de 2026

Gostou deste artigo?

Receba as melhores noticias de tech todos os dias no seu email.

Comentarios

Escreva um comentario

Mais em Inteligência Artificial

Introduces 'Observational Memory' and Reduces AI Costs by Up to 10x
Inteligência Artificial

Introduces 'Observational Memory' and Reduces AI Costs by Up to 10x

Observational memory is a new memory architecture approach that promises to cut artificial intelligence (AI) costs by up to 10 times, developed by Mastra.

HubNews • FEB 10 • 1 min read
Nvidia launches DreamDojo, AI model for training robots
Inteligência Artificial

Nvidia launches DreamDojo, AI model for training robots

Nvidia has announced DreamDojo, a new artificial intelligence system designed to teach robots how to interact with the physical world. Utilizing 44 thousand hours of human video, this advancement aims to reduce time and costs in training humanoid robots.

HubNews • FEB 9 • 1 min read
Google Integrates Agentive Vision into Gemini 3 Flash
Inteligência Artificial

Google Integrates Agentive Vision into Gemini 3 Flash

Google has implemented the concept of agentive vision in its Gemini 3 Flash model, enabling a combination of visual reasoning with code execution.

HubNews • FEB 6 • 1 min read