Google rend SynthID Text disponible pour détecter les contenus AI.
SynthID Text : la nouvelle technologie de Google pour protéger les contenus générés par l’IA
Google rend SynthID Text, sa technologie permettant aux développeurs de mettre des filigranes et de détecter du texte écrit par des modèles d’IA générative, généralement disponible.
SynthID Text peut être téléchargé à partir de la plateforme IA Hugging Face et de l’ensemble d’outils mis à jour de Google, Responsible GenAI Toolkit.
Mais comment fonctionne concrètement SynthID Text ?
À partir d’une demande telle que “Quel est votre fruit préféré ?”, les modèles de génération de texte prédisent quel “token” est le plus susceptible de suivre un autre – un token à la fois. Les tokens, qui peuvent être un caractère ou un mot, sont les éléments de base qu’un modèle génératif utilise pour traiter l’information. Un modèle attribue à chaque token possible un score, qui représente la chance en pourcentage d’inclusion dans le texte de sortie. SynthID Text insère des informations supplémentaires dans cette distribution de tokens en “modulant la probabilité de génération des tokens”, explique Google.
Selon Google, SynthID Text, intégré à ses modèles Gemini depuis ce printemps, n’affecte pas la qualité, la précision ou la vitesse de génération de texte, et fonctionne même sur des textes qui ont été recadrés, paraphrasés ou modifiés.
Cependant, Google admet que son approche de filigrane présente des limites. Par exemple, SynthID Text fonctionne moins bien avec des textes courts, des textes qui ont été réécrits ou traduits d’une autre langue, ou avec des réponses à des questions factuelles.
Google n’est pas la seule entreprise à travailler sur la technologie de filigrane de texte IA. OpenAI mène depuis des années des recherches sur les méthodes de filigrane, mais a retardé leur sortie pour des raisons techniques et commerciales.
Les techniques de filigrane pour le texte pourraient potentiellement aider à inverser la tendance des “détecteurs d’IA” inexactes mais de plus en plus populaires qui signalent à tort des essais et des documents rédigés dans un style plus générique.
Il pourrait bientôt y avoir des mécanismes juridiques qui contraignent les développeurs à agir. Le gouvernement chinois a introduit le filigrane obligatoire du contenu généré par IA, et l’État de Californie envisage de faire de même.
Une urgence se fait sentir dans la situation. Selon un rapport de l’Agence de l’Union européenne chargée de l’application des lois, 90 % du contenu en ligne pourrait être généré de manière synthétique d’ici 2026, ce qui entraînerait de nouveaux défis en matière de maintien de l’ordre en matière de désinformation, de propagande, de fraude et de tromperie.
Il y a déjà une newsletter centrée sur l’IA de TechCrunch ! Inscrivez-vous ici pour la recevoir dans votre boîte de réception chaque mercredi.
Source : techcrunch.com