
Réduire les coûts d'inférence en IA avec la plateforme Blackwell
TL;DR
Nvidia a annoncé que sa plateforme Blackwell permet à quatre principaux fournisseurs d'inférence de réduire les coûts par token jusqu'à 10 fois.
Réduction des coûts d'inférence en IA
Nvidia a annoncé que sa plateforme Blackwell permet à quatre principaux fournisseurs d'inférence de réduire les coûts par token jusqu'à 10 fois. Cette analyse, publiée jeudi, met en évidence comment les améliorations en matériel et en logiciel contribuent à cette réduction.
Les améliorations ont été valables pour des secteurs tels que la santé, les jeux et le service client. Une étude menée par Baseten, DeepInfra, Fireworks AI et Together AI révèle comment les entreprises font évoluer l'intelligence artificielle (IA) de projets pilotes à des millions d'utilisateurs.
Modèle d'optimisation et ses implications
Selon l'analyse, la réduction des coûts dépend de l'utilisation conjointe du matériel Blackwell, de piles logicielles optimisées et de la transition de modèles propriétaires vers des modèles open-source. La simple amélioration du matériel a entraîné des gains allant jusqu'à 2x, mais la réduction la plus importante nécessite l'adoption de formats de faible précision, comme le NVFP4.
Dion Harris, directeur senior des solutions HPC et IA chez Nvidia, a déclaré : "La performance est ce qui entraîne la réduction du coût d'inférence". Cette logique implique qu'une augmentation du débit, la capacité de traiter plus de données simultanément, entraîne des prix plus bas par token.
Cas de succès dans la pratique
Nvidia a détaillé quatre cas de succès qui illustrent la combinaison de l'infrastructure Blackwell, de piles logicielles optimisées et de modèles open-source. Un exemple est Sully.ai, qui a réduit ses coûts d'inférence en santé de 90%, en passant à des modèles open-source, économisant des millions de minutes de médecins.
Un autre cas, Latitude, a rapporté une réduction de 4x des coûts d'inférence pour sa plateforme AI Dungeon, diminuant le coût par million de tokens de 20 cents (sur la plateforme Hopper) à 5 cents après l'adoption du NVFP4. Ce changement technique a été crucial pour optimiser les coûts.
La référence à la Fondation Sentient montre une amélioration de 25% à 50% de l'efficacité des coûts sur sa plateforme de chat, grâce à l'utilisation de la pile optimisée pour l'inférence de Fireworks AI. Cette augmentation de l'efficacité est vitale, surtout lorsque la latence est un facteur critique.
Facteurs techniques influençant la réduction des coûts
La gamme de réductions de 4x à 10x reflète différentes combinaisons d'optimisations, avec trois facteurs principaux à l'honneur :
- Adoption de formats de précision : Le NVFP4, par exemple, réduit le nombre de bits nécessaires pour représenter des poids de modèles, permettant une plus grande computation par cycle du GPU.
- Architecture du modèle : Les modèles de mélange d'experts (MoE) profitent de la communication rapide fournie par l'architecture NVLink de Blackwell, les rendant plus efficaces.
- Intégration de piles logicielles : L'approche de co-design de Nvidia facilite l'optimisation du matériel et des logiciels, aboutissant à une amélioration des performances.
Évaluation et tests nécessaires
Les entreprises qui envisagent de migrer vers l'inférence avec Blackwell doivent évaluer si leurs charges de travail justifient des changements d'infrastructure. Shruti Koparkar, de Nvidia, suggère que les entreprises doivent prendre en compte le volume des demandes et la sensibilité à la latence des applications.
Des tests avec des charges de production réelles sont essentiels. Koparkar observe que les métriques de débit peuvent ne pas refléter les conditions réelles de fonctionnement. Le modèle d'approche par étapes utilisé par Latitude peut servir de guide pratique à mesure que les entreprises évaluent les améliorations de coût et d'efficacité.
Variété de fournisseurs et considérations économiques
Bien que Blackwell soit une option prometteuse, d'autres plates-formes telles que l'AMD MI300 et le Google TPU offrent également des alternatives. Des évaluations solides doivent prendre en compte les coûts totaux, y compris les frais généraux, et pas seulement le coût par token, pour déterminer l'approche la plus économique.
Avec un marché de l'inférence en constante évolution, les entreprises doivent être prêtes à explorer différentes provenances, optimiser leurs workflows et, en fin de compte, adopter des solutions qui répondent le mieux à leurs besoins spécifiques.
Contenu selectionne et edite avec assistance IA. Sources originales referencees ci-dessus.


