15 janvier 2025

Krusell France

Ta dose d'actu digital !

Sky-T1-32B-Preview : le premier modèle de raisonnement open source efficient

Binary code in blue with little yellow locks in between to illustrate data protection.
Rate this post

Les modèles d’IA de raisonnement, dits des AI reasoning models en anglais, deviennent de plus en plus faciles à élaborer — et moins chers.

Un modèle de raisonnement open source

Vendredi, NovaSky, une équipe de chercheurs basée au UC Berkeley’s Sky Computing Lab, a publié Sky-T1-32B-Preview, un modèle de raisonnement qui rivalise avec une version antérieure du modèle O1 d’OpenAI sur un certain nombre de benchmarks clés. Sky-T1 semble être le premier modèle de raisonnement véritablement open source dans le sens où il peut être reproduit de zéro; l’équipe a publié l’ensemble de données qu’ils ont utilisé pour l’entraîner ainsi que le code d’entraînement nécessaire.

“Remarquablement, Sky-T1-32B-Preview a été entraîné pour moins de 450 $”, écrit l’équipe dans un article de blog, “démontrant qu’il est possible de reproduire des capacités de raisonnement de haut niveau de manière abordable et efficace.”

Des modèles d’IA abordables

Le terme “abordable” peut paraître relatif pour un budget de 450 $. Mais il n’y a pas si longtemps, le coût de l’entraînement d’un modèle avec des performances comparables se situait souvent dans les millions de dollars. Les données d’entraînement synthétiques, ou les données d’entraînement générées par d’autres modèles, ont contribué à réduire les coûts. Palmyra X 004, un modèle récemment publié par la société d’IA Writer, entraîné presque entièrement sur des données synthétiques, aurait coûté seulement 700 000 $ à développer.

Contrairement à la plupart des IA, les modèles de raisonnement se fact-checkent efficacement, ce qui les aide à éviter certains des écueils qui piègent généralement les modèles. Les modèles de raisonnement prennent un peu plus de temps — généralement quelques seconds à minutes de plus — pour arriver à des solutions par rapport à un modèle classique. L’avantage est qu’ils ont tendance à être plus fiables dans des domaines tels que la physique, les sciences et les mathématiques.

Les performances de Sky-T1

Selon l’équipe de NovaSky, Sky-T1 se comporte mieux qu’une version de prévisualisation antérieure de O1 sur MATH500, une collection de défis mathématiques de niveau “compétition”. Le modèle bat également la prévisualisation de O1 sur un ensemble de problèmes difficiles provenant de LiveCodeBench, une évaluation de codage.

Cependant, Sky-T1 ne parvient pas à égaler la prévisualisation de O1 sur GPQA-Diamond, qui contient des questions de physique, de biologie et de chimie que l’on pourrait attendre d’un diplômé en doctorat.

Le futur des modèles de raisonnement

Il est également important de noter que la version GA d’O1 d’OpenAI est un modèle plus performant que la version de prévisualisation de O1, et qu’OpenAI devrait publier un modèle de raisonnement encore plus performant, O3, dans les prochaines semaines.

Mais l’équipe de NovaSky affirme que Sky-T1 ne marque que le début de leur quête pour développer des modèles open source avec des capacités de raisonnement avancées.

“À l’avenir, nous nous concentrerons sur le développement de modèles plus efficaces qui maintiennent de fortes performances en matière de raisonnement et nous explorerons des techniques avancées qui améliorent encore l’efficacité et la précision des modèles lors des tests”, écrit l’équipe dans l’article.
“Restez à l’écoute pendant que nous progressons sur ces initiatives passionnantes.”

Source : techcrunch.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications