Gemini offre des suggestions intelligentes pour la préparation des données AI sur BigQuery
Nous vous proposons aujourd’hui un article sur l’augmentation de l’IA dans la préparation des données sur BigQuery, propulsée par Gemini, qui offre des suggestions intelligentes pour le nettoyage, la transformation et l’enrichissement des données, réduisant ainsi considérablement les efforts manuels. Dataform orchestre ces préparations, supportant les processus CI/CD pour la collaboration.
Avantages
Réduction du temps: Suggestions de transformation générées par Gemini adaptées au contexte.
Qualité des données: Mappage de schéma automatisé et nettoyage de la qualité des données.
Collaboration: Support CI/CD pour les revues de code et le contrôle de source.
Les utilisateurs et les comptes de service Dataform nécessitent des rôles IAM spécifiques. Les préparations de données sont gérées dans BigQuery Studio. L’ouverture d’une table déclenche un job BigQuery qui échantillonne les données pour que Gemini génère des suggestions.
Vues dans l’Éditeur de Préparation de Données
Vue des données: Affiche un échantillon de la table et permet l’interaction et l’application des suggestions de Gemini.
Vue graphique: Aperçu visuel du pipeline de préparation des données.
Vue du schéma: Affiche et permet des opérations sur le schéma actuel.
Gemini offre des suggestions contextuelles pour les transformations, les règles de qualité des données, la standardisation, l’enrichissement et le mappage de schéma. Chaque suggestion inclut une catégorie de haut niveau, une description et une expression SQL correspondante.
BigQuery utilise l’échantillonnage des données pour prévisualiser la préparation des données. Les échantillons ne sont pas automatiquement rafraîchis. Optimisez les coûts et le temps de traitement en modifiant les paramètres de mode d’écriture pour traiter de manière incrémentielle de nouvelles données. Les modes supportés incluent le Rafraîchissement complet, l’Ajout et l’Incrémental.
Étapes de Préparation des Données Supportées
Source: Ajoute une table source ou une étape de jointure.
Transformation: Nettoie et transforme les données en utilisant des expressions SQL.
Filtrage: Supprime les lignes en utilisant la syntaxe de la clause WHERE.
Validation: Envoie les lignes répondant aux critères de validation à une table d’erreur.
Jointure: Joint les valeurs de deux sources avec différentes opérations de jointure.
Destination: Définit où sortir les étapes de préparation des données.
Supprimer les colonnes: Supprime les colonnes du schéma.
Planifiez des exécutions ponctuelles ou récurrentes de préparation des données à partir de l’éditeur de préparation des données ou gérez-les depuis la page d’Orchestration de BigQuery. La préparation des données BigQuery n’a pas sa propre API. Contactez bq-datapreparation-feedback@google.com pour plus d’informations.
Limitations
Les ensembles de données source et de destination doivent être dans le même emplacement.
Les données et les interactions sont traitées dans un centre de données américain lors de l’édition du pipeline.
Aucun support pour la génération de requêtes SQL en langage naturel ou pour voir/comparer/restaurer des versions de préparation des données.
Les réponses de Gemini sont basées sur un échantillon de l’ensemble de données.
Pour des étapes et configurations plus détaillées, consultez la documentation BigQuery ci-dessous.
Source : web.swipeinsight.app