
Réduisez votre facture LLM de 73 % avec le caching sémantique
TL;DR
L'utilisation croissante d'API de modèles de langage (LLM) entraîne une augmentation significative des coûts. Grâce à l'implémentation du caching sémantique, nous avons réussi à réduire les coûts de l'API de 73 %.
L'utilisation croissante d'APIs de modèles de langage (LLM) peut entraîner une augmentation significative des coûts. Une facture a précisément augmenté de 30 % par mois en raison des questions répétées des utilisateurs avec différentes formulations. Pour aborder cette question, nous avons mis en œuvre le caching sémantique, ce qui a entraîné une réduction de 73 % des coûts de l'API.
Pour comprendre la question, nous avons analysé les journaux de requêtes et découvert que des questions telles que "Quelle est votre politique de retour ?" et "Puis-je obtenir un remboursement ?" étaient traitées comme des requêtes séparées, tout en générant des réponses similaires. Le caching par correspondance exacte était insuffisant, capturant seulement 18 % des cas redondants.
Déficience du caching par correspondance exacte
Le caching traditionnel associe le texte de la requête comme clé du cache. Cela fonctionne pour des requêtes identiques, mais les utilisateurs reformulent souvent leurs questions. Une étude avec 100 000 requêtes a révélé que seulement 18 % des questions étaient des doublons exacts, tandis que 47 % étaient sémantiquement similaires et 35 % entièrement nouvelles.
Ces questions similaires généraient toutes des appels LLM, entraînant des coûts superflus. La mise en œuvre d'un système de caching sémantique, qui observe le sens de la requête et non sa formulation, a augmenté notre taux de réussite de cache à 67 %.
Architecture du caching sémantique
L'implémentation du caching sémantique a remplacé les clés de texte par un look-up basé sur la similarité par embedding dans un espace vectoriel. Le modèle d'embedding est configuré pour établir un seuil de similarité, permettant d'identifier les requêtes pertinentes.
Si la requête actuelle correspond sémantiquement à une requête stockée, le système retourne la réponse mise en cache, évitant l'appel total au LLM. Le réglage du seuil est crucial. Des seuils trop élevés peuvent entraîner des échecs, et des seuils trop bas peuvent conduire à des réponses incorrectes.
Ajustement du seuil et résultats
Différents types de requêtes nécessitent des seuils distincts. Pour des requêtes fréquentes, telles que les questions fréquemment posées (FAQ), un seuil de 0,94 assure une haute précision. Après des tests, nous avons pu configurer le cache adaptatif en tenant compte du type de requête.
Nous avons évalué les performances et optimisé les seuils, obtenant une augmentation du taux de réussite à 67 % et réduisant les coûts de LLM de 47 K$ à 12,7 K$/mois, une réduction significative de 73 %.
Défis et stratégies d'invalidation de cache
Puisque les informations changent, les réponses stockées peuvent devenir obsolètes. Nous avons mis en œuvre trois stratégies, y compris l'invalidation basée sur le temps, qui définit une durée de vie (TTL) pour différents types de contenu, et l'invalidation basée sur des événements pour mettre à jour les entrées lorsque les données sous-jacentes changent.
De plus, nous avons effectué des vérifications périodiques pour déterminer la validité des réponses mises en cache, en utilisant des analyses de similarité pour garantir que les réponses restent pertinentes.
Résultats finaux et recommandations
Après trois mois, nous avons observé que 0,8 % des réussites étaient incorrectes, mais ce taux était dans une limite acceptable. L'impact du caching sémantique a été positif, comme en témoigne l'amélioration de 65 % de la latence moyenne, ainsi qu'une réduction substantielle des coûts.
Pour garantir l'efficacité, il est crucial d'ajuster des seuils spécifiques pour chaque type de requête, de maintenir un système d'invalidation actif et d'éviter que des données obsolètes soient présentées aux utilisateurs.
Sreenivasa Reddy Hulebeedu Reddy est ingénieur logiciel principal.
Contenu selectionne et edite avec assistance IA. Sources originales referencees ci-dessus.


