
Nvidia Developpe une Technique Réduisant les Coûts des LLM de 8x
TL;DR
Nvidia a dévoilé une nouvelle technique appelée <a href="https://arxiv.org/abs/2506.
Nvidia présente une nouvelle technique appelée Dynamic Memory Sparsification (DMS), qui diminue les coûts mémoire des modèles de langage de grande taille jusqu'à **huit fois**. Cette innovation permet aux modèles de conserver voire d'améliorer leurs capacités de raisonnement tout en traitant des informations.
Avec le DMS, le cache de clé-valeur (KV), qui stocke des données temporaires durant le raisonnement des modèles, est compressé de manière efficace. Des recherches antérieures avaient montré des difficultés à réduire le cache sans compromettre l'intelligence du modèle, mais l'approche de Nvidia a réussi à éliminer des parties significatives du cache sans perte de précision.
Défis du Raisonnement dans les Modèles de Langage
Les modèles de langage améliorent leurs performances dans des tâches complexes en générant des tokens de "chaîne de raisonnement" qui détaillent leur raisonnement. Cependant, ce processus augmente la demande computationnelle en raison de la croissance linéaire du cache KV, ce qui peut devenir un obstacle significatif dans les applications pratiques.
L'augmentation de l'utilisation de mémoire sur les GPU entraîne **latence** et limite le nombre d'utilisateurs pouvant être desservis simultanément. Piotr Nawrot, ingénieur chez Nvidia, souligne : "La question ne concerne pas seulement la quantité de matériel, mais aussi si votre infrastructure traite 100 ou 800 threads de raisonnement pour le même coût.".
Résoudre ce problème n'est pas seulement une question technique, mais aussi économique, car l'augmentation des coûts opérationnels peut impacter les entreprises. Les méthodes antérieures, qui utilisaient des règles fixées comme "fenêtre glissante" pour ne conserver que les tokens les plus récents, entraînaient souvent une perte d'informations cruciales.
Fonctionnement de la Dynamic Memory Sparsification
La technique DMS modifie les modèles existants, permettant à ceux-ci de gérer leur propre mémoire de manière intelligente. Au lieu de suivre une règle stricte pour la suppression, le DMS entraîne les modèles à identifier quels tokens sont essentiels et lesquels peuvent être éliminés.
Nawrot explique : "Ce n'est pas seulement une conjecture sur l'importance ; le modèle apprend une politique qui préserve explicitement la distribution finale de sortie". Le DMS adapte des modèles pré-entraînés, tels que Llama 3 ou Qwen 3, leur permettant de devenir auto-compressibles sans avoir besoin d'entraînement depuis le début.
Une caractéristique clé du DMS est le mécanisme de "éviction retardée", qui permet aux tokens considérés comme non essentiels de rester accessibles pendant un certain temps avant d'être exclus, garantissant que les informations pertinentes soient intégrées avant la suppression.
DMS en Action
Pour valider la technique, Nvidia a appliqué le DMS à des modèles de raisonnement tels que Qwen-R1 et Llama 3.2, les testant sur des benchmarks difficiles. Les résultats indiquent une amélioration notable des performances en évitant la compression liée à une plus grande difficulté à comprendre des contextes longs.
Lors des tests avec le benchmark AIME 24, le modèle Qwen-R1 32B, équipé du DMS, a obtenu **12,0 points** de plus par rapport à un modèle standard, le tout sans augmenter les exigences de mémoire. Cela souligne que le modèle peut développer un raisonnement plus approfondi sans le coût additionnel habituel.
Ces avancées en efficacité se traduisent également par des économies en matériel, permettant à un seul serveur de traiter jusqu'à **cinq fois plus** de requêtes simultanément, tout en maintenant la qualité. Le DMS de Nvidia est un ajout significatif à la bibliothèque KVPress, avec une mise en œuvre simplifiée.
Perspectives Futures de la Gestion de Mémoire
Le DMS représente un changement dans la manière dont la gestion de mémoire peut s'intégrer dans les systèmes d'intelligence artificielle, étant compatible avec des architectures émergentes comme Multi-Head Latent Attention (MLA). Cette combinaison pourra aboutir à des gains d'efficacité encore plus importants.
Alors que les entreprises évoluent de chatbots simples à des systèmes complexes de raisonnement, la réduction des coûts d'inférence devient une priorité. Des techniques comme le DMS sont des atouts majeurs pour étendre ces capacités de manière durable. "Nous n'avons à peine effleuré la surface de ce qui est possible," conclut Nawrot, faisant référence à l'avenir du DMS dans l'expansion des limites du raisonnement dans les modèles de langage.
Contenu selectionne et edite avec assistance IA. Sources originales referencees ci-dessus.


