67 votes
Obj : 300 000 Légende Discutez, votez et aidez-nous à atteindre cet objectif !
Vos votes sont importants : ils alimentent le jeu de données CompaRAG mis à disposition librement pour évaluer les outils RAG.
Ce commun numérique contribue à une meilleure évaluation objective des outils RAG.

Tout savoir sur le comparateur

Le comparateur permet de créer des jeux de données de préférence centrés sur des usages réels exprimés dans les langues européennes.

Accéder au comparateur
Capture d’écran de l’arène CompaRAG, avec la question initiale, les deux résultats des outils et les boutons de vote.

L’application développée répond à plusieurs enjeux

Fiabilité variable selon les fournisseurs d’outils RAG

Comparer objectivement les outils RAG sur des tâches réelles pour identifier les outils les plus fiables selon les cas d’usage.

Dépendance fournisseur et portabilité des outils

Évaluer plusieurs outils RAG sur la même tâche pour réduire le risque de dépendance à un fournisseur unique et faciliter la portabilité.

Variance de performance selon les cas d’usage

Mesurer la variance de performance des outils RAG selon les types de tâches pour choisir l’outil le mieux adapté à chaque besoin.

Esprit critique et questions sociétales

Inciter au questionnement critique sur la place de l’IA générative dans les pratiques personnelles et professionnelles (éducation, travail).

Les modèles d’IA conversationnelles respectent-ils la diversité des langues européennes ?

Réponses stéréotypées

Les systèmes d’IA conversationnelle donnent l’impression de parler toutes les langues mais les résultats qu’ils génèrent sont parfois stéréotypés ou discriminants.

Données d’entrainement majoritairement en anglais

Les IA conversationnelles reposent sur des grands modèles de langage (LLM) entraînés principalement sur des données en anglais, ce qui crée des biais linguistiques et culturels dans les résultats qu'ils produisent.

Diversités culturelles et linguistiques négligées

Ces biais peuvent aussi se traduire par des réponses partielles voire incorrectes négligeant la diversité des langues et des cultures, notamment européennes.

Comment réduire les biais culturels et linguistiques de ces modèles ?

L'alignement : une technique de réduction des biais qui repose sur la collecte des préférences d’utilisateurs

L’alignement, étape décisive d’instruction du modèle

L'alignement intervient après l'étape de pré-entraînement d'un modèle de langage, comme une étape de « finition » ou de « polissage ». Lors de son pré-entrainement, le modèle apprend à prédire le mot suivant et devient capable de générer du texte cohérent.

L’étape d’alignement consiste à apprendre au modèle à mieux répondre aux besoins humains, c’est à dire à le rendre plus pertinent (le modèle répond « mieux » aux questions), honnête (capacité à assumer « qu’il ne sait pas répondre » quand il n’y a pas suffisamment de données), et inoffensif (éviter de générer des contenus dangereux ou inappropriés).

Sans alignement, un LLM pourrait être techniquement compétent mais difficile à utiliser en pratique, car il ne comprendrait pas vraiment ce qu'on attend de lui dans une conversation.

Des jeux de données spécifiques

L'alignement utilise des données très spécifiques, spécialement créées pour enseigner au modèle comment « bien » se comporter.

Les données de préférence constituent un type particulier de données d’alignement, aux côtés des données de démonstration (exemples de conversations entre humains et assistants IA, rédigées par des annotateurs experts selon des consignes précises de ton et de style), des données de sécurité (exemples spécifiques enseignant au modèle à éviter les contenus dangereux en montrant comment refuser les demandes problématiques) ou des données spécialisées couvrant des domaines spécifiques (médecine, droit, éducation…).

Les données de préférence présentent plusieurs réponses possibles à une même question, classées par ordre de qualité par des évaluateurs humains : les utilisateurs indiquent quelle réponse est la meilleure selon des critères donnés, telles que la pertinence, l’utilité, la nocivité. Une fois constitués, ces jeux de données sont utilisés pour entraîner les modèles en les ajustant selon les préférences exprimées par les utilisateurs.

Peu de données de préférence en langues européennes

Les données de préférence sont couteuses à produire car elles nécessitent du travail humain qualifié pour chaque exemple. Des plateformes telles que https://chat.lmsys.org/ permettent de constituer ces jeux de données de préférence mais peu d’utilisateurs s’en servent dans leur langue d’origine.

Les jeux de données de préférence sont rares, voire inexistants dans les langues européennes. La part des questions posées en français dans le jeu de données de LMSYS est par exemple inférieure à 1%.

CompaRAG est un exemple de dispositif permettant de collecter des conversations dans de multiples langues, incluant des références culturelles spécifiques à chaque région ou pays : tâches courantes, traditions culinaires locales, systèmes éducatifs, références historiques ou littéraires, etc.

Diversifier les données pour réduire les biais

Pour refléter la diversité des cultures et des langues dans les résultats générés par les modèles, les jeux de données d’alignement doivent inclure une variété de langues, de contextes et d’exemples issus de tâches courantes des utilisateurs. La diversification des données d'alignement permet d’améliorer à terme les performances d’un modèle à double titre :

D'une part, elle réduit les biais culturels en évitant qu'une seule perspective - souvent anglo-saxonne - domine les réponses de l'IA. Le modèle apprend ainsi à reconnaître qu'il existe plusieurs façons valides d'aborder une même question selon le contexte culturel.

D'autre part, cette exposition à la diversité de langues et de cultures favorise l’adaptation des réponses à des contextes spécifiques : un utilisateur français recevra des conseils adaptés au système français, tandis qu'un utilisateur danois obtiendra des informations correspondant à son contexte national.

Le résultat est un modèle d’IA conversationnelle plus inclusif, capable de tenir compte des différentes cultures.

Les partenaires

Aucun partenaire pour le moment. Revenez bientôt !

CompaRAG en quelques dates

La chronologie du projet sera publiée prochainement.

Trois invariants garantissent l'équité de chaque manche.

1. Même contexte. Les deux outils reçoivent exactement la même question, le même document, et la même limite de temps. Le code qui construit la requête (backend/tool_arena/rag_tool/ask_one_tool.py) est unique : pas de chemin spécial par outil.

2. Tirage transparent. Seuls les outils déclarés READY au moment de la requête entrent dans le tirage. Ils sont groupés par task_type — résumé, question-réponse, extraction — et un outil n'affronte qu'un autre outil du même groupe (pas de QA contre Résumé). Au sein d'un groupe, deux outils sont pris au hasard, pondérés par un poids public déclaré dans mcp_servers.json.

3. Vote en aveugle. L'identité des deux outils est cachée jusqu'à votre vote. Vous voyez « réponse A » et « réponse B », pas leur marque. Toute mention de l'outil dans sa propre réponse est effacée avant affichage.

Le code de ces trois mécanismes est public et auditable : backend/tool_arena/comparison/ask_two_tools_concurrently.py, backend/tool_arena/rag_tool/readiness.py, backend/tool_arena/blind_reveal/hide_tool_identity_before_vote.py.

Quatre étapes, dans l'ordre :

  1. Tirage de deux RAGTool prêts (cf. question sur l'équité).
  2. Interrogation parallèle : la même question et le document sont envoyés simultanément aux deux outils via MCP. Time-out individuel de 180 s.
  3. Aveuglement : chaque réponse est nettoyée pour effacer le nom de l'outil, puis affichée sans étiquette comme « réponse A » / « réponse B ». L'ordre est tiré au sort.
  4. Révélation : après votre vote, les deux identités s'affichent et le vote est enregistré.

Si l'un des deux outils tombe en erreur, vous voyez une carte d'erreur à sa place et le vote est désactivé — comparer une réponse à un échec n'a pas de sens.

« RAG » (Retrieval-Augmented Generation) désigne une catégorie d'outils qui combinent récupération d'information et génération par LLM. La même catégorie cache pourtant des choix d'architecture très différents :

  • Quel chunker ? Découpage par paragraphe, par fenêtre de caractères, par phrase…
  • Quel retriever ? Dense (embeddings), creux (BM25), hybride, graph-based (LightRAG, GraphRAG)…
  • Quel reranker ? Cross-encoder, LLM-judge, ou rien.
  • Quel prompt ? La même question peut donner des sorties radicalement différentes selon le prompt qui enrobe les passages retrouvés.

CompaRAG met aujourd'hui en compétition cinq familles de moteurs (LangChain, LlamaIndex, Haystack, Txtai, Chroma) sur le même LLM (Mistral Medium 3.1 via OpenRouter). La constante du LLM est volontaire : on mesure la qualité du pipeline de récupération, pas la qualité du modèle final.

Vos questions et vos votes sont publiés en jeu de données ouvert sur Hugging Face (comparag-tool-votes) après filtrage des informations personnelles. C'est l'objet du projet : produire un corpus public de préférences humaines entre outils RAG, utilisable pour entraîner et évaluer d'autres systèmes.

Les documents que vous uploadez ne sont pas publiés. Ils sont passés aux deux outils RAG pour leur permettre de répondre, puis effacés du cache à la fin de la session (24 h).

Vous pouvez demander la suppression d'un vote précis en nous contactant — le vote est alors archivé et exclu du prochain export du dataset.

L'arène est faite pour grossir. Cinq étapes, environ trente minutes :

  1. Copier le template mcp_servers/_template_new_tool/.
  2. Remplir tool.manifest.yaml (nom, but, transport, port, task_type).
  3. Implémenter la fonction rag_query(task, goal, document_content) de server.py avec la logique de votre outil.
  4. Lancer python scripts/register_tool.py <slug> : la commande met à jour mcp_servers.json et l'ontologie automatiquement.
  5. Vérifier pytest backend/ et python scripts/check_openrouter_providers.py.

Guide complet : docs/add_a_new_rag_tool.md. Liste de candidats à intégrer : LightRAG, R2R, Vectara MCP, PaperQA2, Verba, RAGFlow, Cohere RAG, Pinecone MCP.

Partenaires de diffusion

Cafés de l'IA Latitudes Pix Fresques de l'IA

Nous créons un réseau de partenaires intégrant le comparateur dans leur offre de services et de formation.

Vous souhaitez utiliser le comparateur pour répondre à un besoin métier ?

Dites nous en plus

Partenaires académiques

Inria

Nous avons à coeur que les jeux de données générés alimentent des travaux de recherche multidisciplinaires mêlant sciences humaines et sociales et data science.

Vous menez un projet de recherche et avez des suggestions ou besoin de précision sur la démarche et/ou les jeux de données produits ?

Nous contacter

Services mis à contribution

Impact CO2 Gen AI Impact

Les calculs d’impacts environnementaux reposent sur les produits ci dessus.