5 juillet 2024

Krusell France

Ta dose d'actu digital !

Le nouveau GPT-4o d’OpenAI : multimodal, ultrarapide, gratuit.

Harry Guinness picture
Rate this post

Aperçu du nouveau modèle d’IA GPT-4o d’OpenAI

Qu’est-ce que GPT-4o?

GPT-4o est le dernier modèle d’intelligence artificielle phare d’OpenAI, la société derrière ChatGPT, DALL·E, et le boom de l’IA dans lequel nous sommes plongés. C’est un modèle multimodal, ce qui signifie qu’il peut gérer nativement le texte, l’audio et les images, et offre des performances de niveau GPT-4 (voire meilleures) à des vitesses beaucoup plus rapides et à des coûts plus bas. De plus, c’est la première fois que les utilisateurs gratuits de ChatGPT pourront utiliser un modèle GPT-4 (jusqu’à présent, ils travaillaient avec GPT-3 et GPT-3.5 Turbo).

GPT-4o vs. GPT-4: Que peut faire GPT-4o?

L'”o” dans GPT-4o signifie “omni”. Cela fait référence au fait qu’en plus de prendre des entrées de texte, il peut également comprendre nativement les entrées audio et image, et peut répondre avec n’importe quelle combinaison de texte, d’images et d’audio. La clé ici est que tout cela est fait par un seul modèle, au lieu de plusieurs modèles distincts qui travaillent ensemble.

Ajoutez la puissance de ChatGPT à vos flux de travail

Prenez le mode voix précédent de ChatGPT. Vous pouviez lui poser des questions, et il répondait avec de l’audio, mais il mettait du temps à répondre car il utilisait trois modèles d’IA différents pour le faire. Maintenant, avec GPT-4o qui est nativement multimodal, ChatGPT est capable de répondre en moyenne en 0,32 seconde, et on peut vraiment sentir la rapidité. Même les requêtes de texte et d’image sont nettement plus rapides.

Si cette rapidité était au détriment de la performance, cela serait une chose, mais OpenAI affirme que GPT-4o rivalise avec GPT-4 sur les benchmarks de texte et de code en anglais, tout en le surpassant sur d’autres langues, la vision et les benchmarks audio. En particulier, le nouveau tokenizer est beaucoup plus efficace pour des langues comme le tamoul, l’hindi, l’arabe et le vietnamien, permettant des prompts plus complexes et une meilleure traduction entre les langues.

Source : zapier.com

  • Mia Dufresne

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications