TrigFlow : Solution innovante pour l’optimisation des modèles de génération d’IA
Les modèles d’intelligence artificielle générative sont conçus pour créer des données réalistes et de haute qualité, telles que des images, de l’audio et de la vidéo, en se basant sur des schémas dans de grands ensembles de données. Ces modèles peuvent imiter des distributions de données complexes, produisant du contenu synthétique ressemblant à des échantillons. Une classe largement reconnue de modèles génératifs est le modèle de diffusion. Il a réussi dans la génération d’images et de vidéos en inversant une séquence de bruit ajouté à un échantillon jusqu’à ce qu’une sortie de haute fidélité soit atteinte. Cependant, les modèles de diffusion nécessitent généralement des dizaines à des centaines d’étapes pour compléter le processus d’échantillonnage, exigeant des ressources computationnelles et du temps considérables. Ce défi est particulièrement prononcé dans des applications où un échantillonnage rapide est essentiel ou où de nombreux échantillons doivent être générés simultanément, comme dans des scénarios en temps réel ou de déploiements à grande échelle.
Problèmes de diffusion modèles
Une limitation significative des modèles de diffusion est la charge computationnelle du processus d’échantillonnage, qui implique d’inverser systématiquement une séquence de bruit. Chaque étape de cette séquence est coûteuse en termes de calcul, et le processus introduit des erreurs lorsqu’il est discrétisé en intervalles de temps. Les modèles de diffusion en temps continu offrent une solution à ce problème, car ils éliminent le besoin de ces intervalles et réduisent ainsi les erreurs d’échantillonnage. Cependant, les modèles en temps continu n’ont pas été largement adoptés en raison de l’instabilité inhérente pendant la formation. Cette instabilité rend difficile la formation de ces modèles à grande échelle ou avec des ensembles de données complexes, ce qui a ralenti leur adoption et leur développement dans des domaines où l’efficacité computationnelle est essentielle.
Avancées avec TrigFlow
Une équipe de chercheurs d’OpenAI a introduit un nouveau framework appelé TrigFlow, conçu pour simplifier, stabiliser et mettre à l’échelle de manière efficace les modèles de cohérence en temps continu (CM). La solution proposée cible spécifiquement les problèmes d’instabilité dans la formation des modèles en temps continu et rationalise le processus en incorporant des améliorations dans la paramétrisation du modèle, l’architecture du réseau et les objectifs de formation. TrigFlow unifie les modèles de diffusion et de cohérence en établissant une nouvelle formulation qui identifie et atténue les principales causes d’instabilité, permettant au modèle de gérer de manière fiable des tâches en temps continu. Cela permet au modèle d’obtenir un échantillonnage de haute qualité avec des coûts computationnels minimes, même lorsqu’il est appliqué à de grands ensembles de données comme ImageNet.
Au cœur de TrigFlow se trouve une redéfinition mathématique qui simplifie l’équation différentielle ordinaire ODE (Ordinary Differential Equation) utilisée dans le processus d’échantillonnage. Cette amélioration intègre une normalisation de groupe adaptative et une fonction objective mise à jour qui utilise une pondération adaptative. Ces caractéristiques aident à stabiliser le processus de formation, permettant au modèle de fonctionner de manière continue sans erreurs de discrétisation compromettant souvent la qualité de l’échantillon. L’approche de TrigFlow en matière de conditionnement temporel au sein de l’architecture du réseau réduit la dépendance à l’égard de calculs complexes, ce qui rend possible la mise à l’échelle du modèle. L’objectif de formation restructuré annule progressivement des termes critiques dans le modèle, lui permettant d’atteindre la stabilité plus rapidement et à une échelle inédite.
Source : www.marktechpost.com