7 novembre 2024

Krusell France

Ta dose d'actu digital !

Google lance Gemini, sa suite IA révolutionnaire. Comment l’utiliser et le comparer?

illustration featuring Google's Bard logo
Rate this post

Google : tout sur Gemini, la suite phare d’IA de l’entreprise

Google tente de se faire remarquer avec Gemini, sa suite phare de modèles d’IA générative, d’applications et de services.

Qu’est-ce que Google Gemini? Comment l’utiliser? Et comment se compare-t-il à la concurrence?

Pour faciliter le suivi des derniers développements liés à Gemini, nous avons préparé ce guide pratique, que nous mettrons à jour à mesure que de nouveaux modèles Gemini, fonctionnalités et actualités sur les projets de Google concernant Gemini seront publiés.

Qu’est-ce que Gemini?

Gemini est la famille de modèles d’IA génératifs de nouvelle génération de Google, développée par les laboratoires de recherche en IA de Google, DeepMind et Google Research. Il se décline en quatre variantes :

  • Gemini Ultra, le modèle Gemini le plus performant.
  • Gemini Pro, une alternative plus légère à Ultra.
  • Gemini Flash, une version plus rapide et "distillée" de Pro.
  • Gemini Nano, deux petits modèles – Nano-1 et Nano-2 plus performant – conçus pour fonctionner hors ligne sur des appareils mobiles.

Tous les modèles Gemini ont été conçus pour être nativement multimodaux, c’est-à-dire capables de travailler avec et d’analyser plus que du simple texte. Google affirme qu’ils ont été pré-entraînés et affinés sur une variété de données audio, d’images et de vidéos publiques, propriétaires et sous licence, un ensemble important de bases de code et de texte dans différentes langues.

Cela distingue Gemini de modèles tels que LaMDA de Google, qui a été entraîné exclusivement sur des données textuelles. LaMDA ne peut pas comprendre ou générer autre chose que du texte (par exemple, des essais, des brouillons d’e-mails), mais ce n’est pas nécessairement le cas avec les modèles Gemini.

Nous notons ici que l’éthique et la légalité de l’entraînement des modèles sur des données publiques, parfois sans la connaissance ou le consentement des propriétaires des données, sont en effet obscures. Google offre une politique de protection d’IA pour protéger certains clients de Google Cloud contre les poursuites judiciaires, mais cette politique comporte des exceptions. Il convient donc de procéder avec prudence, en particulier si vous envisagez d’utiliser Gemini commercialement.

Quelle est la différence entre les applications Gemini et les modèles Gemini?

Google, démontrant une fois de plus qu’il manque de flair pour le branding, n’a pas clairement précisé que Gemini est distinct des applications Gemini sur le Web et mobile (anciennement Bard).

Les applications Gemini sont des clients qui se connectent à différents modèles Gemini – Gemini Ultra (avec Gemini Advanced, voir ci-dessous) et Gemini Pro jusqu’à présent – et superposent des interfaces de type chatbot par-dessus. Pensez à elles comme à des interfaces frontales pour l’IA générative de Google, analogues à ChatGPT d’OpenAI et à la famille d’applications Claude d’Anthropic.

Les capacités des modèles Gemini

Étant donné que les modèles Gemini sont multimodaux, ils peuvent effectuer toute une série de tâches multimodales, de la transcription de la parole à la légende des images et des vidéos en temps réel. Bon nombre de ces capacités ont atteint le stade du produit (comme mentionné dans la section précédente), et Google promet beaucoup plus dans un avenir proche.

Il est toutefois un peu difficile de croire l’entreprise sur parole.

Google a sérieusement déçu avec le lancement initial de Bard. Plus récemment, il a provoqué un tollé avec une vidéo montrant les capacités de Gemini qui était plus ou moins aspirational, pas en direct, et avec une fonction de génération d’images qui s’est avérée offensamment inexacte.

De plus, Google n’apporte aucune solution à certains problèmes sous-jacents des technologies d’IA générative aujourd’hui, comme ses biais codés et sa propension à inventer des choses (c’est-à-dire halluciner). Ses rivaux non plus, mais c’est quelque chose à garder à l’esprit lors de l’utilisation ou du paiement de Gemini.

Gemini : une alternative à GPT-4 d’OpenAI?

Google a plusieurs fois vanté la supériorité de Gemini sur les benchmarks, affirmant notamment que Gemini Ultra dépasse les résultats actuels de l’état de l’art sur "30 des 32 benchmarks académiques largement utilisés dans la recherche et le développement de grands modèles de langage". Mais en laissant de côté la question de savoir si les benchmarks indiquent vraiment un modèle supérieur, les scores auxquels Google fait référence semblent être seulement marginalement meilleurs que ceux des modèles GPT-4 d’OpenAI.

Le dernier modèle phare d’OpenAI, GPT-4o, se démarque nettement de 1.5 Pro en évaluation de texte, en compréhension visuelle et en performance de traduction audio, tandis que le Sonnet 3.5 de Claude d’Anthropic les surpasse tous les deux – mais peut-être pas pour longtemps étant donné le rythme effréné de l’industrie de l’IA.

Pour en revenir à Gemini, la tarification des modèles Gemini est variable, avec des modèles gratuits qui imposent des limites d’utilisation et excluent certaines fonctionnalités, et des versions payantes.

La suite de modèles Gemini, développée par Google, offre une alternative intéressante à ses concurrents comme OpenAI. Avec une gamme de modèles disponibles, des applications dédiées et des tarifs personnalisés, Gemini pourrait être un choix judicieux pour les personnes et entreprises souhaitant bénéficier des avantages de l’IA générative.

Source : techcrunch.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications