6 mai 2025

Krusell France

Ta dose d'actu digital !

GPT-4o: nouvelle fonctionnalité audio révolutionnaire – À découvrir!

New audio models from OpenAI, but how much can we rely on them?
Rate this post

OpenAI annonce de nouvelles fonctionnalités pour les API audio

OpenAI a annoncé aujourd’hui plusieurs nouvelles fonctionnalités audio pour ses API de text-to-speech et de speech-to-text. Parmi celles-ci, le modèle de text-to-speech gpt-4o-mini-tts est sorti avec une interface de jeu passionnante disponible sur OpenAI.fm. Cette interface permet de choisir parmi 11 voix de base et d’appliquer des instructions telles que “High-energy, eccentric, and slightly unhinged” pour lire un script. Ces modèles permettent également de générer du code API équivalent en Python, JavaScript ou curl. Il est possible de partager les expérimentations réalisées avec ces nouveaux modèles.

Les risques liés à l’instruction accidentelle

Cependant, l’insertion d’instructions dans le script même peut poser problème, car il est possible que certaines parties du texte soient traitées comme des instructions supplémentaires pour le modèle. Cela peut engendrer des résultats non déterministes qui varient en fonction des voix de base utilisées. OpenAI estime le coût de ces nouveaux modèles entre 0,3 et 0,6 cents par minute.

Améliorations dans les modèles de speech-to-text

Les modèles de speech-to-text gpt-4o-transcribe et gpt-4o-mini-transcribe, offrent des alternatives similaires et établissent une “nouvelle référence en termes de qualité”. Bien que ces modèles présentent des avancées, le risque d’instruction accidentelle reste une préoccupation, en particulier lors de la transcription audio.

Ayant répondu à ces problématiques, Jeff Harris d’OpenAI souligne la nécessité d’une fidélité absolue au script lors de la lecture, mais des risques subsistent.

Les défis de la transcription audio avec des modèles basés sur LLM

Ces difficultés rencontrées dans les nouveaux modèles font écho aux défis liés à l’injection d’instructions directes. Les architectures LLM peuvent présenter des vulnérabilités lorsque des parties du texte sont mal interprétées comme des instructions pour le modèle. Malgré les efforts d’amélioration et les développements récents, il reste à voir si ces modèles seront efficaces dans des applications réelles sans causer de problèmes.

Source : simonw.substack.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications