8 novembre 2024

Krusell France

Ta dose d'actu digital !

Avancées majeures dans la légende de vidéos : découvrez les détails

Wolf: A Mixture-of-Experts Video Captioning Framework that Outperforms GPT-4V and Gemini-Pro-1.5 in General Scenes, Autonomous Driving, and Robotics Videos
Rate this post

La transcription vidéo est devenue de plus en plus importante pour la compréhension du contenu, la recherche et la formation des modèles de base pour les tâches liées à la vidéo. Malgré son importance, générer des légendes vidéo précises, détaillées et descriptives est un défi dans des domaines tels que la vision par ordinateur et le traitement du langage naturel. Divers obstacles clés entravent les progrès dans ce domaine. Un tel exemple est la rareté des données de haute qualité car les données provenant d’Internet sont inexactes et les grands ensembles de données sont très coûteux. De plus, la transcription vidéo est intrinsèquement plus complexe que la transcription d’images en raison des corrélations temporelles et des mouvements de caméra. Le manque de benchmarks établis et le besoin critique de précision dans les applications sensibles à la sécurité rendent ce défi plus complexe dans ce domaine.

## Avancées récentes dans les modèles de langage visuel

Les avancées récentes dans les modèles de langage visuel ont amélioré la transcription d’images, cependant, ces modèles rencontrent des défis avec la transcription vidéo en raison de complexités temporelles. Les modèles spécifiques à la vidéo comme PLLaVa, Video-llava et Video-LLama ont été développés pour relever ce défi. Leurs techniques incluent un regroupement sans paramètre, une formation conjointe d’images et de vidéos, et le traitement des entrées audio. Les chercheurs ont également exploré l’utilisation de grands modèles de langage (LLMs) pour les tâches de résumé, comme le montrent LLaDA et la méthode de re-légende d’OpenAI. Malgré ces avancées, ce domaine a besoin d’un benchmark établi et du besoin crucial de précision dans les applications sensibles à la sécurité.

## Présentation de Wolf pour une transcription vidéo précise

Des chercheurs de NVIDIA, UC Berkeley, MIT, UT Austin, l’Université de Toronto et l’Université Stanford ont proposé Wolf, un cadre de résumé WOrLd pour une transcription vidéo précise. Wolf utilise une approche de mélange d’experts, utilisant à la fois des modèles de langage visuel d’image et de vidéo (VLMs) pour capturer différents niveaux d’informations et résumer efficacement. Le cadre est développé pour améliorer la compréhension vidéo, l’étiquetage automatique et la légende. Les chercheurs ont introduit CapScore, une mesure basée sur LLM qui évalue la similitude et la qualité des légendes générées par rapport à la vérité terrain. Wolf surpasse les méthodes actuelles de pointe et les solutions commerciales, augmentant significativement CapScore dans des vidéos de conduite difficiles.

## Évaluation des performances de Wolf en transcription vidéo

L’évaluation de Wolf utilise quatre ensembles de données : 500 vidéos interactives Nuscences, 4 785 vidéos normales Nuscences, 473 vidéos générales et 100 vidéos robotiques. La métrique CapScore proposée évalue la similitude des légendes avec la vérité terrain. La méthode proposée est comparée à des méthodes de pointe telles que CogAgent, GPT-4V, VILA-1.5 et Gemini-Pro-1.5. Les méthodes au niveau de l’image comme CogAgent et GPT-4V traitent des images séquentielles, tandis que les méthodes basées sur la vidéo comme VILA-1.5 et Gemini-Pro-1.5 gèrent des entrées vidéo complètes. Un prompt cohérent est utilisé pour tous les modèles, mettant l’accent sur l’expansion des éléments visuels et narratifs, en particulier le comportement en mouvement.

## Résultats et conclusion

Les résultats indiquent que Wolf surpasse les approches de pointe en transcription vidéo. Alors que GPT-4V est meilleur en reconnaissance de scène, il éprouve des difficultés avec les informations temporelles. Gemini-Pro-1.5 capture certains contextes vidéo mais manque de détails dans la description du mouvement. En revanche, Wolf capture efficacement le contexte de la scène et les comportements de mouvement détaillés, tels que des véhicules se déplaçant dans différentes directions et répondant aux signaux de circulation. Quantitativement, Wolf surpasse les méthodes actuelles, comme VILA1.5, CogAgent, Gemini-Pro-1.5 et GPT-4V. Dans des vidéos de conduite difficiles, Wolf améliore CapScore de 55,6% en qualité et 77,4% en similitude par rapport à GPT-4V. Ces résultats soulignent la capacité de Wolf à fournir des légendes vidéo plus complètes et précises.

En conclusion, des chercheurs ont introduit Wolf, un cadre de résumé WOrLd pour une transcription vidéo précise. Wolf représente une avancée significative dans la transcription vidéo automatisée, combinant des modèles de légende et des techniques de résumé pour produire des descriptions détaillées et correctes. Cette approche permet une compréhension complète des vidéos sous différents angles, particulièrement excellant dans des scénarios difficiles comme les vidéos de conduite multivue. Les chercheurs ont établi un tableau de bord pour encourager la concurrence et l’innovation dans la technologie de transcription vidéo. Ils prévoient également de créer une bibliothèque exhaustive présentant différents types de vidéos avec des légendes de haute qualité, des informations régionales telles que des boîtes englobantes 2D ou 3D et des données de profondeur, et des détails sur les mouvements de multiples objets.

Source : www.marktechpost.com

  • mia dufresne portrait redactrice

    Mia est une rédactrice spécialisée dans les produits tech et l'IA, avec une formation en data science et une passion pour l'innovation. Elle explore les dernières avancées en IA, leurs applications pratiques et leurs implications éthiques.

    Voir toutes les publications