GPT-4o: nouvelle fonctionnalité audio révolutionnaire – À découvrir!

2 mois ago Mia Dufresne

Rate this post

OpenAI annonce de nouvelles fonctionnalités pour les API audio

Sommaire masquer

1 OpenAI annonce de nouvelles fonctionnalités pour les API audio

2 Les risques liés à l’instruction accidentelle

3 Améliorations dans les modèles de speech-to-text

4 Les défis de la transcription audio avec des modèles basés sur LLM

5 Actualités similaires :

OpenAI a annoncé aujourd’hui plusieurs nouvelles fonctionnalités audio pour ses API de text-to-speech et de speech-to-text. Parmi celles-ci, le modèle de text-to-speech gpt-4o-mini-tts est sorti avec une interface de jeu passionnante disponible sur OpenAI.fm. Cette interface permet de choisir parmi 11 voix de base et d’appliquer des instructions telles que “High-energy, eccentric, and slightly unhinged” pour lire un script. Ces modèles permettent également de générer du code API équivalent en Python, JavaScript ou curl. Il est possible de partager les expérimentations réalisées avec ces nouveaux modèles.

Les risques liés à l’instruction accidentelle

Cependant, l’insertion d’instructions dans le script même peut poser problème, car il est possible que certaines parties du texte soient traitées comme des instructions supplémentaires pour le modèle. Cela peut engendrer des résultats non déterministes qui varient en fonction des voix de base utilisées. OpenAI estime le coût de ces nouveaux modèles entre 0,3 et 0,6 cents par minute.

Améliorations dans les modèles de speech-to-text

Les modèles de speech-to-text gpt-4o-transcribe et gpt-4o-mini-transcribe, offrent des alternatives similaires et établissent une “nouvelle référence en termes de qualité”. Bien que ces modèles présentent des avancées, le risque d’instruction accidentelle reste une préoccupation, en particulier lors de la transcription audio.

Ayant répondu à ces problématiques, Jeff Harris d’OpenAI souligne la nécessité d’une fidélité absolue au script lors de la lecture, mais des risques subsistent.

Les défis de la transcription audio avec des modèles basés sur LLM

Ces difficultés rencontrées dans les nouveaux modèles font écho aux défis liés à l’injection d’instructions directes. Les architectures LLM peuvent présenter des vulnérabilités lorsque des parties du texte sont mal interprétées comme des instructions pour le modèle. Malgré les efforts d’amélioration et les développements récents, il reste à voir si ces modèles seront efficaces dans des applications réelles sans causer de problèmes.

Source : simonw.substack.com

Mia Dufresne
Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.
Voir toutes les publications