7 novembre 2024

Krusell France

Ta dose d'actu digital !

Les meilleurs modèles IA ouverts de MosaicML et Databricks : une révolution en marche

Helping nonexperts build advanced generative AI models | MIT News
Rate this post

Les avancées en intelligence artificielle risquent de ne jamais profiter de manière équitable si une seule entreprise construit et contrôle les modèles (sans parler des données qui les alimentent). Actuellement, les modèles d’IA sont constitués de milliards de paramètres qui doivent être entraînés et ajustés pour maximiser les performances dans chaque cas d’utilisation, rendant ainsi les modèles d’IA les plus puissants inaccessibles à la plupart des gens et des entreprises. MosaicML a été créé dans le but de rendre ces modèles plus accessibles. La société, qui compte Jonathan Frankle PhD et le professeur associé du MIT Michael Carbin parmi ses fondateurs, a développé une plateforme permettant aux utilisateurs d’entraîner, d’améliorer et de surveiller des modèles open-source à l’aide de leurs propres données. La société a également créé ses propres modèles open-source en utilisant des unités de traitement graphique (GPU) de Nvidia. Cette approche a permis de rendre le deep learning, un domaine émergent lorsque MosaicML a commencé ses activités, accessible à un plus grand nombre d’organisations, avec l’engouement croissant autour de l’IA générative et des modèles de langue de grande taille (LLMs) suite à la sortie de Chat GPT-3.5. Cela a également fait de MosaicML un outil complémentaire puissant pour les entreprises de gestion des données qui se sont engagées à aider les organisations à utiliser leurs données sans les transmettre à des entreprises d’IA. L’année dernière, cette stratégie a conduit à l’acquisition de MosaicML par Databricks, une entreprise mondiale de stockage, d’analyse et d’IA qui travaille avec certaines des plus grandes organisations du monde. Depuis cette acquisition, les deux entreprises ont mis sur le marché l’un des LLM open-source les plus performants à ce jour, connu sous le nom de DBRX. Ce modèle a établi de nouveaux standards dans des tâches telles que la compréhension de la lecture, les questions de culture générale et les casse-têtes logiques. Depuis sa création, DBRX s’est taillé une réputation de l’un des LLM open-source les plus rapides disponibles et s’est avéré particulièrement utile pour les grandes entreprises. Au-delà du modèle, Frankle affirme que DBRX est important parce qu’il a été construit en utilisant les outils de Databricks, ce qui signifie que n’importe quel client de l’entreprise peut obtenir des performances similaires avec ses propres modèles, ce qui accélérera l’impact de l’IA générative. “Honnêtement, c’est excitant de voir la communauté réaliser des choses géniales avec cela”, déclare Frankle. “Pour moi en tant que scientifique, c’est ce qu’il y a de mieux. Ce n’est pas le modèle, c’est tout ce que la communauté réalise avec. C’est là que la magie opère.”

Une efficience algorithmique en constante évolution

Frankle a obtenu une licence et une maîtrise en informatique à l’Université de Princeton avant de venir au MIT pour poursuivre son doctorat en 2016. Au début de son doctorat, il ne savait pas dans quel domaine de l’informatique il voulait se spécialiser. Son choix final a changé le cours de sa vie. Frankle a finalement décidé de se concentrer sur une forme d’intelligence artificielle appelée deep learning. À l’époque, le deep learning et l’intelligence artificielle ne suscitaient pas le même enthousiasme généralisé qu’aujourd’hui. Le deep learning était un domaine d’étude vieux de plusieurs décennies qui n’avait pas encore donné beaucoup de résultats. “Je ne pense pas que qui que ce soit à l’époque anticipait que le deep learning allait exploser de la manière dont il l’a fait”, déclare Frankle. “Les personnes averties pensaient que c’était un domaine très intéressant avec de nombreux problèmes non résolus, mais des termes comme large language model (LLM) et intelligence artificielle générative n’étaient pas vraiment utilisés à ce moment-là. C’était les débuts.” Les choses ont commencé à devenir intéressantes avec la publication en 2017 d’un document désormais célèbre par des chercheurs de Google, dans lequel ils ont montré qu’une nouvelle architecture d’apprentissage profond connue sous le nom de transformer était étonnamment efficace pour la traduction de langues et présentait des perspectives dans de nombreux autres domaines, y compris la génération de contenu.

Source : news.mit.edu

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications