Personnaliser les préférences en matière de consentement

Nous utilisons des cookies pour vous aider à naviguer efficacement et à exécuter certaines fonctions. Vous trouverez des informations détaillées sur tous les cookies sous chaque catégorie de consentement ci-dessous.

Les cookies qui sont catégorisés comme "Nécessaires" sont stockés sur votre navigateur car ils sont essentiels pour permettre les fonctionnalités de base du site.

Nous utilisons également des cookies tiers qui nous aident à analyser la façon dont vous utilisez ce site, à stocker vos préférences et à fournir le contenu et les publicités qui vous sont pertinents. Ces cookies ne seront stockés dans votre navigateur qu'avec votre consentement préalable.

Vous pouvez choisir d'activer ou de désactiver tout ou partie de ces cookies, mais la désactivation de certains d'entre eux peut affecter votre expérience de navigation.

Toujours actif

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

11 mai 2025

Krusell France

Ta dose d'actu digital !

Google DeepMind repousse les limites de l’IA avec sa nouvelle technologie V2A

Google's New AI Can Generate Audio For Your Silent Videos
Rate this post

Making Videos Come Alive with AI-Generated Soundtracks

Le son est un élément crucial pour réaliser une bonne vidéo. C’est pourquoi, malgré le réalisme des résultats des outils tels que Veo de Google, Sora d’OpenAI et Gen-3 Alpha de Runway, les vidéos ont souvent l’air sans vie. Le dernier modèle d’IA de Google Deepmind espère combler ce vide en génération de bandes son synchronisées pour votre vidéo. C’est assez impressionnant.

Google Deepmind’s V2A Technology

La technologie V2A (vidéo vers audio) de Google combine les pixels vidéo avec des indications textuelles optionnelles pour créer un audio qui s’aligne étroitement avec les visuels. Elle peut générer de la musique, des effets sonores et même des dialogues qui s’alignent avec l’action à l’écran.

Sous le capot, V2A utilise une approche basée sur la diffusion pour la génération réaliste de l’audio. Le système encode l’entrée vidéo dans une représentation compressée, puis affine de manière itérative l’audio à partir de bruit aléatoire, guidé par les visuels et les indications textuelles optionnelles. L’audio généré est ensuite décodé en une forme d’onde et combiné à la vidéo.

Enhancing Audio Quality

Pour améliorer la qualité audio et permettre une génération sonore plus spécifique, DeepMind a formé le modèle sur des données supplémentaires telles que des annotations sonores générées par IA et des transcriptions de dialogues. Cela permet à V2A d’associer des événements audio à différentes scènes visuelles tout en répondant aux annotations ou aux transcriptions fournies.

Cependant, V2A n’est pas sans limites. La qualité audio dépend de la qualité de la vidéo d’entrée, avec des artefacts ou des distorsions causant des baisses perceptibles. La synchronisation labiale pour les vidéos de discours nécessite également des améliorations, car le modèle de génération vidéo apparié peut ne pas correspondre aux mouvements de la bouche par rapport à la transcription.

Tools in the AI Space

Il est bon de savoir qu’il existe d’autres outils dans l’espace de l’IA générative qui abordent ce problème. Plus tôt cette année, Pika Labs a lancé une fonction similaire appelée Sound Effects. Et Eleven Labs a récemment lancé Sound Effects Generator.

En fonction de Google, ce qui distingue son V2A, c’est sa capacité à comprendre les pixels vidéo bruts. Il élimine également le processus fastidieux d’alignement manuel des sons générés avec les visuels. L’intégrer avec des modèles de génération vidéo comme Veo crée une expérience audiovisuelle cohérente, ce qui en fait idéal pour les applications de divertissement et de réalité virtuelle.

Future Releases and Impact on the Creative Community

Google fait preuve de prudence dans la sortie de ses outils d’IA vidéo. Pour l’instant, bien que cela puisse contrarier les créateurs de contenu AI, il n’y a aucun plan immédiat de sortie publique. Au lieu de cela, l’entreprise se concentre sur la résolution des limites et la garantie d’un impact positif sur la communauté créative. Comme pour leurs autres modèles, la sortie de leur modèle V2A inclura des tatouages SynthID pour se prémunir contre les abus.

Source : www.maginative.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications