Claude 3.5 Sonnet domine ChatGPT 4o et Gemini 1.5 Pro: Comparatif complet
Anthropic a récemment publié son dernier modèle Claude 3.5 Sonnet et affirmé qu’il bat ChatGPT 4o et Gemini 1.5 Pro sur plusieurs critères. Pour tester cette affirmation, nous avons réalisé cette comparaison détaillée. Comme pour notre précédente comparaison entre Claude 3 Opus, GPT-4 et Gemini 1.5 Pro, nous avons évalué la capacité de raisonnement, le raisonnement multimodal, la génération de code, et plus encore. Sur ce point, commençons.
1. Trouver le Temps de Séchage
Bien que cela semble être une question de base, je commence toujours mes tests par cette question de raisonnement délicate. Les LLM ont souvent du mal à y répondre correctement. Claude 3.5 Sonnet a commis la même erreur et a abordé la question en utilisant les mathématiques. Le modèle indique qu’il faudra 1 heure 20 minutes pour sécher 20 serviettes, ce qui est incorrect. ChatGPT 4o et Gemini 1.5 Pro ont donné la bonne réponse, disant qu’il faudra toujours 1 heure pour sécher 20 serviettes.
2. Évaluer le Poids
Dans cette question de raisonnement classique suivante, je suis heureux de rapporter que les trois modèles, y compris Claude 3.5 Sonnet, ChatGPT 4o et Gemini 1.5 Pro, ont donné la bonne réponse. Un kilo de plumes, ou de n’importe quoi d’autre, sera toujours plus lourd qu’une livre d’acier ou d’autres matériaux.
3. Puzzle de Mots
Dans le test de raisonnement suivant, Claude 3.5 Sonnet répond correctement que David n’a pas de frères, et qu’il est le seul frère parmi les frères et sœurs. ChatGPT 4o et Gemini 1.5 Pro ont également donné la bonne réponse.
4. Ranger les Articles
Je suis désolé de dire que les trois modèles ont échoué à cette tâche. Les modèles ont pris une approche identique : d’abord placer l’ordinateur portable, puis le livre, puis la bouteille, et enfin 9 œufs sur la base de la bouteille, ce qui est impossible. À noter que l’ancien modèle GPT-4 a donné la bonne réponse.
5. Suivre les Instructions de l’Utilisateur
Dans son article de blog, Anthropic a mentionné que Claude 3.5 Sonnet est excellent pour suivre les instructions, et il semble que ce soit vrai. Il a généré 10 phrases se terminant par le mot “IA”. ChatGPT 4o a également donné 10/10. Cependant, Gemini 1.5 Pro n’a pu en générer que 5 sur 10.
6. Trouver l’Aiguille
Anthropic a été l’une des premières entreprises à offrir une grande longueur de contexte, passant de 100 000 jetons à 200 000 jetons de contexte. Pour ce test, j’ai fourni un texte long de 25 000 caractères et environ 6 000 jetons. J’ai demandé la présence d’une aiguille à tous les modèles. Seul Claude 3.5 Sonnet a réussi à trouver l’énoncé mal placé.
7. Test de Vision
Pour tester la capacité de vision, j’ai téléchargé une image d’une écriture illisible pour voir comment les modèles parviennent à détecter les caractères et les extraire. À ma surprise, les trois modèles ont bien fonctionné et ont identifié correctement les textes. En ce qui concerne la ROC, les trois modèles sont assez capables.
8. Créer un Jeu
Enfin, dans ce dernier test, j’ai téléchargé une image du jeu classique Tetris sans révéler le nom et j’ai simplement demandé aux modèles de créer un jeu similaire en Python. Les trois modèles ont correctement deviné le jeu, mais seul le code généré par Sonnet s’est exécuté avec succès.
Après avoir effectué divers tests sur les trois modèles, nous avons constaté que Claude 3.5 Sonnet est aussi bon, voire meilleur, que le modèle ChatGPT 4o. En codage en particulier, le nouveau modèle d’Anthropic est impressionnant. Le modèle Sonnet a obtenu un score de 92 % sur le benchmark HumanEval qui évalue la capacité de codage. Dans ce benchmark, GPT-4o obtient 90,2 % et Gemini 1.5 Pro 84,1 %. Clairement, pour le codage, il y a un nouveau modèle SOTA en ville, et c’est le modèle Claude 3.5 Sonnet.
La société indique que Claude 3.5 Opus arrivera plus tard cette année et devrait être encore meilleur. Google’s Gemini 1.5 Pro a également performé mieux que lors de nos précédents tests, ce qui signifie qu’il a été considérablement amélioré. Globalement, nous pouvons dire qu’OpenAI n’est pas le seul laboratoire d’IA à faire du bon travail dans le domaine des LLM. Le modèle Claude 3.5 Sonnet d’Anthropic en est la preuve.
Source : beebom.com