Google présente Infini-attention pour une IA plus performante
Google DeepMind présente la nouvelle technologie Infini-Attention pour les modèles de langage Transformer
Une récente annonce de Google lors de la conférence I/O a mis en avant une nouvelle version révolutionnaire de Gemini, intégrant la nouvelle technique Infini-Attention, développée par Google DeepMind. Cette technologie permet aux modèles de langage d’étendre leur capacité de compréhension à des contextes infiniment longs, en combinant mémoire compressive et mécanismes d’attention dans une structure unique.
Mémoire compressive et attention : une combinaison innovante
La mémoire est un élément crucial pour l’intelligence artificielle, permettant des calculs efficaces et contextuels. Cependant, les modèles de langage basés sur les Transformers rencontrent des limitations en termes de mémoire dépendante du contexte en raison de leurs mécanismes d’attention. Ces mécanismes d’attention présentent des défis en termes de coûts financiers et de traitement lors de l’augmentation de la longueur des séquences à traiter, comme dans le cas des modèles traitant des contextes de 1 million de tokens.
Les systèmes de mémoire compressive offrent une alternative plus évolutive et efficiente aux mécanismes d’attention pour des séquences extrêmement longues. Contrairement aux systèmes traditionnels, la mémoire compressive utilise un nombre fixe de paramètres pour stocker et rappeler les informations, limitant ainsi les coûts de stockage et de calcul.
La technologie Infini-Attention introduite par Google DeepMind combine mémoire compressive et mécanismes d’attention, en intégrant à la fois une attention locale masquée et une attention linéaire à long terme dans un seul bloc Transformer. Cette approche permet aux modèles de langage existants de traiter des contextes infiniment longs à travers un pré-entraînement et un affinage continus.
Des résultats prometteurs pour l’avenir des LLM généralistes
Les modèles Infini-Transformer ont été évalués sur des benchmarks impliquant des séquences d’entrée extrêmement longues, tels que la modélisation de langage à long contexte et des tâches de résumé de livre. Les résultats ont montré une amélioration notable des performances des modèles avec l’augmentation de la quantité d’entrée, permettant une génération de résumés efficace et une gestion réussie de contextes très vastes.
Ainsi, la technologie Infini-Attention offre des implications profondes pour l’avenir des LLM généralistes et des applications telles que RAG, ouvrant la voie à des avancées majeures dans le domaine de l’intelligence artificielle.
Source : pub.towardsai.net