17 octobre 2024

Krusell France

Ta dose d'actu digital !

Comparatif: Galileo évalue les LLMs les plus populaires – résultats surprenants!

Midrange and open-source large language models earn top marks in new AI accuracy benchmark
Rate this post

Une startup en intelligence artificielle, Galileo Technologies Inc., vient de dévoiler les résultats d’un test de benchmark comparant l’exactitude des principaux modèles de langage volumineux de l’industrie.

Résultats du test de benchmark Hallucination Index

L’Index de Hallucination, tel est le nom du benchmark, a évalué 12 LLM open source et 10 LLM propriétaires. Galileo a mesuré l’exactitude des modèles à travers trois collections de tâches. Certains groupes de tâches ont été réalisés avec une exactitude parfaite par des LLM basés sur des conceptions open source et optimisées en termes de coût, démontrant que de tels modèles peuvent constituer une alternative compétitive aux systèmes d’IA de pointe.

La société basée à San Francisco, Galileo, soutenue par plus de 20 millions de dollars de financement de capital risque, propose une plateforme basée sur le cloud permettant aux équipes d’IA de mesurer l’exactitude de leurs réseaux neuronaux et de résoudre les problèmes techniques. En mai dernier, la société a mis à jour le logiciel avec un outil de protection des LLM contre les entrées malveillantes.

Évaluation des modèles

Galileo a évalué les modèles faisant partie du benchmark Hallucination Index en utilisant une fonctionnalité de sa plateforme appelée Context Adherence. Selon l’entreprise, cette fonctionnalité consiste à fournir à un LLM un prompt de test et à mesurer la qualité de sa réponse en utilisant un second LLM. OpenAI’s GPT-4o a été utilisé par Galileo pour évaluer les réponses d’IA.

Chaque prompt de test dans l’Index de Hallucination comprenait une question et un texte contenant la réponse. Les 22 LLM évalués par Galileo ont eu pour tâche de déduire la réponse à la question à partir du texte fourni.

Le modèle le plus précis parmi ceux évalués par l’entreprise était le Claude 3.5 Sonnet d’Anthropic PBC. Il s’agit du modèle intermédiaire d’une série de LLM prévue qu’Anthropic a commencé à déployer le mois dernier.

Galileo a classé le Gemini 1.5 Flash de Google LLC comme étant le modèle de langage offrant le meilleur rapport qualité-prix. Ce LLM léger, qui a fait ses débuts en mai, coûte près de 10 fois moins cher à utiliser que ce qu’Anthropic facture pour le Claude 3.5 Sonnet.

Un LLM appelé Qwen-2-72b-instruct du groupe Alibaba Group Holding Ltd. a obtenu le meilleur score parmi les modèles open source testés par Galileo.

Image: Unsplash

Source : siliconangle.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications