Les + populaires

BTC ETH SOL XRP BNB USDC USDT

Suivez-nous

OpenEvals : Simplifiez l’évaluation des LLM pour les développeurs !

IAavec
Titres Titres

Zach Anderson
26 février 2025, 12:07

LangChain révolutionne l’évaluation des modèles de langage avec OpenEvals et AgentEvals, des outils construits pour fluidifier le processus de validation pour les développeurs.

LangChain, un acteur incontournable dans le domaine de l’intelligence artificielle, a récemment dévoilé deux nouveaux outils, OpenEvals et AgentEvals. Ces solutions innovantes visent à simplifier l’évaluation des modèles de langage à grande échelle (LLMs). Elles fournissent aux développeurs une architecture solide ainsi qu’un ensemble d’évaluateurs pour améliorer l’examen des applications et des agents alimentés par les LLMs.

Pourquoi les Évaluations Sont-elles Essentielles ?

Les évaluations, souvent désignées sous le terme « evals », jouent un rôle crucial dans la détermination de la qualité des résultats générés par les LLMs. Elles reposent sur deux éléments fondamentaux : les données à évaluer et les métriques utilisées pour cette évaluation. Ainsi, la qualité des données impacte directement la capacité de l’évaluation à refléter les usages concrets. LangChain met l’accent sur la nécessité de rassembler un ensemble de données de haute qualité, adapté à des cas d’utilisation spécifiques.

Les métriques d’évaluation, quant à elles, sont généralement adaptées selon les objectifs de l’application. Pour répondre aux besoins d’évaluation les plus courants, LangChain a conçu OpenEvals et AgentEvals, offrant des solutions pré-construites qui mettent en avant les tendances et meilleures pratiques du secteur.

Types d’Évaluations Courantes et Bonnes Pratiques

Les packages OpenEvals et AgentEvals se concentrent sur deux grandes approches d’évaluation :

  1. Évaluateurs Personnalisables : Les évaluations LLM-en-juge, qui ont une large portée, permettent aux développeurs d’adapter des exemples pré-enregistrés à leurs besoins spécifiques.
  2. Évaluateurs Spécifiques à un Cas d’Utilisation : Conçus pour des applications particulières, tels que l’extraction d’informations structurées de documents ou la gestion des appels d’outils. LangChain prévoit d’élargir ces bibliothèques pour inclure davantage de techniques d’évaluation ciblées.

Évaluations LLM-en-Juge

Les évaluations LLM-en-juge sont répandues en raison de leur utilité pour évaluer les résultats en langage naturel. Ces évaluations peuvent être sans référence, permettant ainsi une analyse objective sans nécessiter de réponses de vérité fondamentale. OpenEvals facilite ce processus en fournissant des invites personnalisables, intégrant des exemples peu fournis et générant des commentaires de raisonnement pour plus de transparence.

Évaluations des Données Structurées

Pour les applications nécessitant des résultats structurés, OpenEvals propose des outils garantissant que la sortie du modèle respecte un format prédéfini. Cela est essentiel pour des tâches comme l’extraction d’informations structurées ou la validation de paramètres pour les appels d’outils. OpenEvals prend en charge la configuration de correspondances exactes ou la validation LLM-en-juge pour les sorties structurées.

Évaluations des Agents : Analyser les Trajectoires

Les évaluations d’agent se concentrent sur la séquence d’actions qu’un agent doit réaliser pour accomplir une tâche. Cela implique d’évaluer le choix des outils et la trajectoire des applications. AgentEvals offre des mécanismes pour examiner et s’assurer que les agents utilisent les bons outils et suivent la bonne séquence d’actions.

Suivi et Perspectives d’Avenir

LangChain recommande d’utiliser LangSmith pour le suivi des évaluations au fil du temps. LangSmith propose des outils de traçage, d’évaluation et d’expérimentation, soutenant ainsi le développement d’applications LLM prêtes pour la production. Des entreprises de renom telles qu’Elastic et Klarna se tournent vers LangSmith pour évaluer leurs applications GenAI.

L’initiative de LangChain visant à formaliser les meilleures pratiques continue de progresser, avec des projets d’introduction d’évaluateurs spécifiques pour des cas d’utilisation courants. Les développeurs sont invités à partager leurs propres évaluateurs ou à suggérer des améliorations via GitHub.

Source de l’image : Shutterstock

Source https://blockchain.news/news/openevals-simplifies-llm-evaluation-process

Optimisez vos coûts bancaires
Revolut
Profitez d'abonnements gratuits

Donnez votre avis

Soyez le 1er à noter cet article


Partagez cet article maintenant !

Envoyez simplement nos contenus crypto et finance à vos proches.