Évaluations
Lance des runs d'évaluation sur le jeu de questions dorées. Chaque run applique la configuration pipeline active (ou celle que tu choisis) sur un modèle donné, mesure la qualité de retrieval (precision@1/3, MRR) et fait juger la réponse par un LLM impartial.
Nouvelle exécution
0 exécutions
Aucune exécution lancée.