Google DeepMind repousse les limites de l’IA avec sa nouvelle technologie V2A
Making Videos Come Alive with AI-Generated Soundtracks
Le son est un élément crucial pour réaliser une bonne vidéo. C’est pourquoi, malgré le réalisme des résultats des outils tels que Veo de Google, Sora d’OpenAI et Gen-3 Alpha de Runway, les vidéos ont souvent l’air sans vie. Le dernier modèle d’IA de Google Deepmind espère combler ce vide en génération de bandes son synchronisées pour votre vidéo. C’est assez impressionnant.
Google Deepmind’s V2A Technology
La technologie V2A (vidéo vers audio) de Google combine les pixels vidéo avec des indications textuelles optionnelles pour créer un audio qui s’aligne étroitement avec les visuels. Elle peut générer de la musique, des effets sonores et même des dialogues qui s’alignent avec l’action à l’écran.
Sous le capot, V2A utilise une approche basée sur la diffusion pour la génération réaliste de l’audio. Le système encode l’entrée vidéo dans une représentation compressée, puis affine de manière itérative l’audio à partir de bruit aléatoire, guidé par les visuels et les indications textuelles optionnelles. L’audio généré est ensuite décodé en une forme d’onde et combiné à la vidéo.
Enhancing Audio Quality
Pour améliorer la qualité audio et permettre une génération sonore plus spécifique, DeepMind a formé le modèle sur des données supplémentaires telles que des annotations sonores générées par IA et des transcriptions de dialogues. Cela permet à V2A d’associer des événements audio à différentes scènes visuelles tout en répondant aux annotations ou aux transcriptions fournies.
Cependant, V2A n’est pas sans limites. La qualité audio dépend de la qualité de la vidéo d’entrée, avec des artefacts ou des distorsions causant des baisses perceptibles. La synchronisation labiale pour les vidéos de discours nécessite également des améliorations, car le modèle de génération vidéo apparié peut ne pas correspondre aux mouvements de la bouche par rapport à la transcription.
Tools in the AI Space
Il est bon de savoir qu’il existe d’autres outils dans l’espace de l’IA générative qui abordent ce problème. Plus tôt cette année, Pika Labs a lancé une fonction similaire appelée Sound Effects. Et Eleven Labs a récemment lancé Sound Effects Generator.
En fonction de Google, ce qui distingue son V2A, c’est sa capacité à comprendre les pixels vidéo bruts. Il élimine également le processus fastidieux d’alignement manuel des sons générés avec les visuels. L’intégrer avec des modèles de génération vidéo comme Veo crée une expérience audiovisuelle cohérente, ce qui en fait idéal pour les applications de divertissement et de réalité virtuelle.
Future Releases and Impact on the Creative Community
Google fait preuve de prudence dans la sortie de ses outils d’IA vidéo. Pour l’instant, bien que cela puisse contrarier les créateurs de contenu AI, il n’y a aucun plan immédiat de sortie publique. Au lieu de cela, l’entreprise se concentre sur la résolution des limites et la garantie d’un impact positif sur la communauté créative. Comme pour leurs autres modèles, la sortie de leur modèle V2A inclura des tatouages SynthID pour se prémunir contre les abus.
Source : www.maginative.com