PageIndex améliore la précision de la recherche de documents longs avec 98,7 %
TL;DR
PageIndex, un nouveau framework open source, propose une solution pour un problème persistant dans le domaine de la génération augmentée par récupération (RAG) : la recherche dans des documents longs. Le framework atteint un taux de précision de 98,7 % dans ses recherches, là où les méthodes traditionnelles échouent.
PageIndex révolutionne la recherche dans des documents longs
Le PageIndex, un nouveau framework open source, offre une solution à l'un des problèmes persistants dans le domaine de la génération augmentée par récupération (RAG) : la recherche dans des documents étendus. Le framework atteint un taux de précision de 98,7 % dans ses recherches, là où les méthodes traditionnelles échouent.
Traditionnellement, le RAG implique la fragmentation des documents, le calcul des embeddings (représentations vectorielles) et le stockage dans une base de données vectorielle. Cette méthode est efficace pour des tâches simples, comme les questions-réponses dans de petits documents.
Cependant, le PageIndex abandonne cette approche linéaire et redéfinit la recherche comme un problème de navigation, plutôt que de simple recherche.
Innovation à travers la recherche arborescente
Le PageIndex utilise un concept d'intelligence artificielle de jeu – la recherche arborescente. Au lieu de scanner chaque paragraphe, le système imite le comportement humain en consultant une table de contenu virtuel qui cartographie la structure du document.
Ce modèle crée un Indice Global où les nœuds représentent des chapitres et des sections du document. Lorsqu'une requête est faite, le système effectue une recherche en arbre, classant chaque nœud comme pertinent ou non pertinent selon le contexte de la demande de l'utilisateur.
Selon Mingtian Zhang, co-fondateur de PageIndex, cette approche transforme la récupération passive en une navigation active, améliorant l'efficacité dans la recherche d'informations pertinentes.
Défis du RAG traditionnel
L'approche traditionnelle du RAG présente des limitations significatives dans des données complexes. La récupération vectorielle suppose que le texte le plus sémantiquement similaire à une requête est le plus pertinent, ce qui n'est pas toujours vrai, surtout dans des domaines professionnels.
Zhang illustre avec des rapports financiers, où une requête sur EBITDA peut retourner plusieurs sections contenant le terme, mais une seule contient la définition précise souhaitée. Cela révèle l'écart entre l'intention de l'utilisateur et le contenu disponible.
De plus, les modèles d'embeddings tendent à ignorer le contexte complet de la conversation lorsqu'ils traitent une requête, rendant la recherche moins efficace.
Problèmes de raisonnement multi-hop
L'approche structurelle du PageIndex brille dans les requêtes de multi-hop, où il est nécessaire de suivre des pistes à différentes parties d'un document. Dans des tests de benchmark, comme le FinanceBench, le système Mafin 2.5, construit sur le PageIndex, a obtenu une précision de 98,7 %.
Par exemple, une requête sur le montant total des actifs différés dans un rapport de la Réserve fédérale peut échouer dans les systèmes vectoriels, qui ne parviennent pas à reconnaître les références internes. Le PageIndex, en revanche, localise les informations pertinentes en suivant la structure du document, garantissant précision dans les réponses.
Échange de latence et infrastructure simplifiée
Un des défis immédiats pour l'implémentation de PageIndex est le temps de latence. Les requêtes vectorielles se produisent en millisecondes, tandis que la recherche en arbre peut introduire des délais. Cependant, Zhang explique que cette latence peut être imperceptible, car la récupération se fait en ligne pendant le processus de raisonnement du modèle.
Ce modèle simplifie également l'infrastructure de données. En éliminant le besoin d'une base de données vectorielle, le PageIndex permet de stocker l'indice structurel dans une base de données relationnelle traditionnelle, comme PostgreSQL.
Choisir entre les techniques de recherche
Malgré les gains de précision du PageIndex, cette approche ne remplace pas universellement les recherches vectorielles. Elle est plus indiquée pour des documents longs et structurés, où le coût d'une erreur est élevé.
Pour des documents plus courts, où le contexte est facilement compréhensible, la recherche vectorielle peut être plus efficace. Le PageIndex se distingue dans des scénarios nécessitant une haute auditabilité et un chemin clair vers la réponse, comme les manuels techniques et la documentation légale.
L'avenir de la récupération proactive
L'essor de frameworks comme le PageIndex indique une tendance plus large dans la pile IA : le mouvement vers le RAG Agent, où la responsabilité de la récupération de données se transfère du niveau de base de données au niveau de modèle.
Cela est déjà visible dans des domaines comme le développement de code, où des agents remplacent les recherches vectorielles simples par l'exploration active de bases de code. Zhang pense que la récupération de documents suivra cette même trajectoire, signalant une évolution dans les autorités traditionnelles des bases de données.
Contenu selectionne et edite avec assistance IA. Sources originales referencees ci-dessus.


