Évaluations

Lance des runs d'évaluation sur le jeu de questions dorées. Chaque run applique la configuration pipeline active (ou celle que tu choisis) sur un modèle donné, mesure la qualité de retrieval (precision@1/3, MRR) et fait juger la réponse par un LLM impartial.

Comparer deux runs →

Nouvelle exécution

0 exécutions

Aucune exécution lancée.