Google lance Gemini 1.5 Flash et Pro : une IA révolutionnaire ouverte au public
Google lance Gemini 1.5 Flash et Pro avec 2M tokens au public
Google Cloud rend accessibles au public deux variations de son modèle d’IA phare – Gemini 1.5 Flash et Pro. La première est un petit modèle multimodal avec une fenêtre contextuelle de 1 million de tokens qui s’attaque à des tâches étroites et à haute fréquence. Elle a été présentée pour la première fois en mai lors de la conférence Google I/O. La seconde, la version la plus puissante du LLM de Google, a été lancée en février avant d’être notablement améliorée pour contenir une fenêtre contextuelle de 2 millions de tokens. Cette version est désormais ouverte à tous les développeurs.
“Compelling” AI agents et solutions
La sortie de ces variations de Gemini vise à montrer comment le travail d’IA de Google permet aux entreprises de développer des agents et des solutions d’IA “captivants”. Lors d’un point de presse, le PDG de Google Cloud, Thomas Kurian, se vante de voir “un élan incroyable” dans les efforts d’IA générative de la société, avec des organisations telles qu’Accenture, Airbus, Anthropic, Box, Broadcom, Cognizant, Confluent, Databricks, Deloitte, Equifax, Estée Lauder Companies, Ford, GitLab, GM, les Golden State Warriors, Goldman Sachs, Hugging Face, IHG Hotels and Resorts, Lufthansa Group, Moody’s, Samsung, et d’autres s’appuyant sur sa plateforme. Il attribue cette croissance de l’adoption à la combinaison de ce que les modèles de Google sont capables de faire et de la plateforme Vertex de l’entreprise. Il va “continuer à introduire de nouvelles capacités dans ces deux couches à un rythme rapide.”
Google sort également un cache contextuel et un débit provisionné, de nouvelles capacités des modèles conçues pour améliorer l’expérience des développeurs.
Gemini 1.5 Flash
Gemini 1.5 Flash offre aux développeurs une latence plus faible, des prix abordables et une fenêtre contextuelle adaptée à l’inclusion dans des agents de chat de vente au détail, le traitement de documents et des robots capables de synthétiser des bases de données entières. Google affirme en moyenne que Gemini 1.5 Flash est 40% plus rapide que GPT-3.5 Turbo lorsqu’il reçoit une entrée de 10 000 caractères. Son prix d’entrée est quatre fois inférieur à celui du modèle d’OpenAI, avec une mise en cache du contexte activée pour des entrées de plus de 32 000 caractères.
Gemini 1.5 Pro
Quant à Gemini 1.5 Pro, les développeurs seront ravis de disposer d’une fenêtre contextuelle beaucoup plus grande. Avec 2 millions de tokens, il est unique en son genre, aucun des modèles d’IA les plus en vue n’ayant une limite aussi élevée. Cela signifie que ce modèle peut traiter et considérer plus de texte avant de générer une réponse que jamais auparavant. “Vous pourriez demander, ‘traduisez cela pour moi en termes réels’,” déclare Kurian. “Deux millions de tokens de contexte vous permettent de prendre deux heures de vidéo haute définition, de les entrer dans le modèle et de le faire comprendre comme une seule chose. Vous n’avez pas à le diviser en morceaux. Vous pouvez le lire comme une seule entité. Vous pouvez faire presque une journée entière de contenu audio, une ou deux heures de vidéo, plus de 60 000 lignes de code et plus de 1,5 million de mots. Et nous voyons de nombreuses entreprises trouver une énorme valeur ajoutée à ceci.”
Kurian explique les différences entre Gemini 1.5 Flash et Pro : “Ce ne sont pas seulement les types de clients, mais ce sont les cas [d’utilisation] spécifiques au sein d’un client.” Il fait référence à la keynote de Google I/O comme exemple pratique et récent. “Si vous vouliez prendre toute la keynote – pas la version courte, mais la keynote de deux heures – et que vous vouliez tout traiter comme une seule vidéo, vous utiliseriez [Gemini 1.5] Pro car c’était une vidéo de deux heures. Si vous vouliez faire quelque chose de très basse latence… alors vous utiliseriez Flash car il est conçu pour être un modèle plus rapide, avec une latence plus prévisible, et capable de raisonner jusqu’à un million de tokens.”
Cache contextuel maintenant pour Gemini 1.5 Pro et Flash
Pour aider les développeurs à tirer parti des différentes fenêtres contextuelles de Gemini, Google lance le cache contextuel en prévisualisation publique pour Gemini 1.5 Pro et Flash. Le cache contextuel permet aux modèles de stocker et de réutiliser les informations qu’ils possèdent déjà sans recalculer tout à partir de zéro chaque fois qu’ils reçoivent une demande. C’est utile pour les conversations ou documents longs et permet de réduire les coûts de calcul des développeurs. Google révèle que le cache contextuel peut réduire les coûts d’entrée de 75%. Cette fonctionnalité deviendra plus cruciale à mesure que les fenêtres contextuelles augmenteront.
Débit provisionné pour Gemini
Avec le débit provisionné, les développeurs peuvent mieux adapter leur utilisation des modèles de Gemini de Google. Cette fonctionnalité détermine le nombre de requêtes ou de textes qu’un modèle peut traiter au fil du temps. Auparavant, les développeurs étaient facturés avec un modèle “à la consommation”, mais maintenant ils ont la possibilité d’utiliser un débit provisionné, ce qui leur donnera une meilleure prévisibilité et une plus grande fiabilité en matière de charges de travail de production.
“Le débit provisionné nous permet en gros de réserver une capacité d’inférence pour les clients,” partage Kurian. “Mais s’ils veulent réserver une certaine quantité de capacité, par exemple s’ils organisent un grand événement et voient un pic d’utilisateurs, comme nous le constatons avec certains de nos clients des plateformes de médias sociaux, ils peuvent réserver une capacité à un moment donné, afin de ne pas commencer à voir des exceptions du point de vue du niveau de service. Et c’est un grand pas en avant pour les assurer lorsque nous introduisons nos modèles en disponibilité générale, ou en leur donnant une assurance sur un objectif de niveau de service, aussi bien en termes de temps de réponse que de disponibilité.”
Le débit provisionné est généralement disponible à partir d’aujourd’hui avec une liste d’approbation.
Source : dnyuz.com