Snowflake et Meta unissent leurs forces pour révolutionner l’IA
Snowflake et Meta unissent leurs forces pour démocratiser l’IA avec Llama 3.1
Snowflake a annoncé qu’il hébergera la collection Llama 3.1 de grands modèles de langage multilingue à code source ouvert (LLMs) dans Snowflake Cortex AI, permettant aux entreprises de tirer parti facilement et de construire des applications IA puissantes à grande échelle. Cette offre inclut le plus grand et puissant LLM à code source ouvert de Meta, Llama 3.1 405B. Snowflake a développé et diffusé en open source le système d’inférence pour permettre l’inférence en temps réel à haut débit et démocratiser davantage les applications puissantes de traitement et de génération de langage naturel.
Optimisation pour une inférence et un fine-tuning efficaces
L’équipe de recherche en IA de Snowflake a optimisé Llama 3.1 405B pour l’inférence et le fine-tuning, supportant une fenêtre contextuelle massive de 128K dès le premier jour. Cela permet une inférence en temps réel avec jusqu’à 3 fois moins de latence de bout en bout et 1,4 fois plus de débit que les solutions à code source ouvert existantes. De plus, il permet un fine-tuning sur le modèle massif en utilisant simplement un seul nœud GPU, éliminant ainsi les coûts et la complexité pour les développeurs et les utilisateurs, le tout au sein de Cortex AI.
Des défis significatifs relevés par l’équipe de recherche en IA de Snowflake
L’équipe de recherche en IA de Snowflake continue de repousser les limites des innovations à code source ouvert grâce à ses contributions régulières à la communauté de l’IA et à sa transparence sur la manière dont elle construit des technologies LLM de pointe. En parallèle au lancement de Llama 3.1 405B, l’équipe de recherche en IA de Snowflake diffuse désormais en open source son système d’optimisation de l’inférence et du fine-tuning pour les LLM massifs en collaboration avec DeepSpeed, Hugging Face, vLLM et la communauté IA plus large. Cette percée établit un nouvel état de l’art pour les systèmes à code source ouvert d’inférence et de fine-tuning pour les modèles à plusieurs centaines de milliards de paramètres.
Les défis liés à l’échelle des modèles massifs et aux besoins en mémoire posent des problèmes significatifs pour les utilisateurs visant à obtenir une inférence à faible latence pour des cas d’utilisation en temps réel, un débit élevé pour l’efficacité des coûts, et un support de long contexte pour divers cas d’utilisation génératifs AI de qualité entreprise. Les exigences en mémoire pour stocker les états du modèle et les activations rendent également le fine-tuning extrêmement difficile, les larges grappes GPU nécessaires pour ajuster le modèle étant souvent inaccessibles aux data scientists.
Source : ffnews.com