22 novembre 2024

Krusell France

Ta dose d'actu digital !

Boostez la fiabilité des IA générationnelles avec DataGemma

AI open models connecting LLMs to Google’s Data Commons
Rate this post

Les modèles linguistiques de grande envergure (LLMs) qui alimentent les innovations en intelligence artificielle d’aujourd’hui deviennent de plus en plus sophistiqués. Ces modèles peuvent parcourir d’énormes quantités de texte et générer des résumés, suggérer de nouvelles directions créatives et même rédiger du code. Cependant, aussi impressionnantes que soient ces capacités, les LLMs présentent parfois avec assurance des informations inexactes. Ce phénomène, connu sous le nom de “hallucination,” est un défi majeur dans l’IA générative.

Avancées prometteuses dans la recherche

Aujourd’hui, nous partageons des avancées prometteuses dans la recherche qui s’attaquent directement à ce défi en aidant à réduire l’hallucination en ancrant les LLMs dans des informations statistiques du monde réel. En parallèle de ces avancées, nous sommes ravis d’annoncer DataGemma, les premiers modèles ouverts conçus pour connecter les LLMs à une vaste base de données du monde réel tirée du Data Commons de Google.

Data Commons : Une vaste réserve de données fiables publiquement disponibles

Data Commons est un graphe de connaissances publiquement disponible contenant plus de 240 milliards de points de données riches sur des centaines de milliers de variables statistiques. Il source ces informations publiques auprès d’organisations de confiance telles que les Nations Unies, l’Organisation mondiale de la santé, les Centres pour le contrôle et la prévention des maladies et les bureaux de recensement. En combinant ces ensembles de données en un seul outil unifié et des modèles d’IA, cela permet aux décideurs, chercheurs et organisations d’obtenir des informations précises.

Pensez à Data Commons comme une vaste base de données en constante expansion remplie d’informations fiables et publiques sur une large gamme de sujets, des domaines de la santé et de l’économie aux données démographiques et environnementales, que vous pouvez explorer à l’aide de notre interface de langage naturel alimentée par l’IA. Par exemple, vous pouvez découvrir quels pays d’Afrique ont connu la plus forte augmentation de l’accès à l’électricité, comment le revenu est corrélé avec le diabète dans les comtés des États-Unis ou poser votre propre question curieuse sur les données.

Comment Data Commons peut aider à lutter contre l’hallucination

Alors que l’adoption de l’IA générative est en augmentation, nous visons à ancrer ces expériences en intégrant Data Commons au sein de Gemma, notre famille de modèles ouverts de haute technologie et légers construits à partir des mêmes recherches et technologie utilisées pour créer les modèles Gemini. Ces modèles DataGemma sont disponibles dès maintenant pour les chercheurs et les développeurs.

DataGemma étendra les capacités des modèles Gemma en exploitant les connaissances de Data Commons pour améliorer la factualité des LLMs et le raisonnement en utilisant deux approches distinctes :

1. RIG (Retrieval-Interleaved Generation) renforce les capacités de notre modèle de langage, Gemma 2, en interrogeant de manière proactive des sources fiables et en vérifiant les informations par rapport à Data Commons. Lorsque DataGemma est sollicité pour générer une réponse, le modèle est programmé pour identifier les données statistiques et récupérer la réponse auprès de Data Commons. Bien que la méthodologie RIG ne soit pas nouvelle, son application précise au sein du cadre de DataGemma est unique.

Source : blog.google

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications