Google lance Whisk, un nouvel outil AI pour générer des images
Selon Google, son nouvel outil d’IA, “Whisk”, permet aux utilisateurs de créer de nouvelles images en utilisant des photos comme guides. Contrairement aux générateurs d’images classiques qui nécessitent un long texte comme guide, Whisk, désormais disponible aux États-Unis, permet aux utilisateurs de générer des images en utilisant d’autres images comme guides et de les “remixer” pour créer de nouvelles œuvres. Grâce à Whisk, les utilisateurs peuvent générer une image en faisant simplement glisser et déposer des photos dans l’outil. Ensuite, le générateur d’images fera le reste.
Fonctionnalités de l’outil Whisk
Avec Whisk, les utilisateurs peuvent fournir des images pour définir le sujet, la scène et le style de leur image générée par IA. Ils peuvent également donner des instructions à Whisk avec plusieurs images pour chacun de ces éléments. De plus, les utilisateurs ont la possibilité de remplir des instructions textuelles si besoin.
Pour ceux qui n’ont pas d’images sous la main, une icône de dé permet à Google de fournir des images générées par l’IA comme guides. À la fin du processus, les utilisateurs peuvent ajouter des détails supplémentaires sur leur image souhaitée en saisissant du texte dans une zone de texte, bien que cette étape soit facultative.
Fonctionnement de Whisk
Whisk génère des images et une instruction textuelle correspondante pour chacune d’elles. Les utilisateurs peuvent ajouter une image en favori ou la télécharger s’ils sont satisfaits des résultats. Sinon, ils peuvent affiner l’image en ajoutant du texte supplémentaire dans la zone de texte ou en modifiant l’instruction textuelle en cliquant sur l’image.
Whisk est alimenté par l’IA Gemini de Google et Imagen, son outil d’IA de création d’images. Selon l’entreprise, Gemini travaille en arrière-plan en convertissant les images téléchargées par les utilisateurs en instructions textuelles détaillées pour le modèle d’IA. “En coulisses, le modèle Gemini rédige automatiquement une légende détaillée de vos images”, écrivent Thomas Iljic, directeur de la gestion des produits de Google Labs, et Nicole Brichtova, responsable des produits Google DeepMind, dans un communiqué de presse. “Il alimente ensuite ces descriptions dans le dernier modèle de génération d’images de Google, Imagen 3. Ce processus capture l’essence de votre sujet, pas une réplique exacte. Ainsi, vous pouvez facilement remixer vos sujets, scènes et styles de manière nouvelle.”
Dans un article de blog, Google insiste sur le fait que Whisk est destiné à “l’exploration visuelle rapide, pas aux modifications pixel parfaites”. L’entreprise reconnaît également que Whisk peut parfois “passer à côté”, c’est pourquoi elle inclut l’option de modifier les instructions sous-jacentes.
Source : petapixel.com