Introduction à Dataform
Introduction
Gérer la transformation et l’intégration des données dans les entrepôts de données modernes n’a jamais été aussi intuitive qu’avec Dataform.
En effet, Dataform est un IDE qui permet de créer des flux de données modernes dans les Datawarehouse cloud tels que Google BigQuery, Amazon Redshift ou Snowflake.
Cet article est une introduction à Dataform. D’autres articles suiveront pour présenter des retours d’expériences et des tutoriels pour mieux explorer et s’approprier cet outil.
Histoire de Dataform
Dataform est une startup Anglaise, fondée par Lewis Hemens et Guillaume-Henri Huon. Ce sont deux ex-Google qui ont souhaité moderniser la gestion des entrepôts de données. Les deux fondateurs qualifient Dataform comme un OS pour le data warehouse.

Lewis Hemens et Guillaume-Henri Huon, fondateurs de Dataform
Fin 2020, Dataform a été racheté par Google. Ainsi, il est désormais gratuit pour les utilisateurs de la suite GCP (Google Cloud Platform).
Dataform, un IDE nouvelle génération pour les équipes Data
Dataform est un IDE (Integrated development environment). Il permet aux équipes Data (analystes, ingénieurs, etc) de collaborer plus efficacement. Notamment grâce à l’utilisation du langage SQL et de Git pour le versioning des scripts. Le schéma ci-dessous illustre le positionnement de Dataform dans une chaîne de transformation des données. Dataform utilise les meilleures pratiques issues du monde de développement IT.

Best practices
Dataform crée un répertoire unique pour l’ensemble de votre data management. En effet, les définitions des données sont stockées dans un répertoire unique. De même, il synchronise ces informations avec Git pour les rendre accessibles à toute l’équipe.
- Version control: l’IDE Dataform est intégré avec Git. Cela permet aux utilisateurs de travailler à partir de leurs branches individuelles. Ainsi, il est possible de publier directement les modifications ou les soumettre à une code-review.
- Automatisation des tests qualité des données: Dataform vous permet de définir et d’appliquer des tests qualité sur l’ensemble de vos données. De même, des alertes automatiques permettent de détecter les erreurs potentielles avant qu’ils atteignent vos analyses.
- Déploiements sécurisés. Dataform vous aide à appliquer le sandboxing, les environnements de développement et CI / CD pour intégrer les nouvelles modifications en toute sécurité.

Planification, logging et alertes
Il est possible de planifier dans Dataform l’actualisation de vos ensembles de données. En effet, l’actualisation de vos données peut être déclenchée tous les jours, toutes les heures ou même toutes les 5 minutes sans avoir à maintenir une infrastructure personnalisée. De même, il vous alerte lorsque des erreurs potentielles se produisent.

Data Lineage: Où se situe Dataform dans une pipeline de données moderne?

Conclusion
De nombreuses entreprises, des startups de haute technologie aux grands détaillants comme Charlotte Tilbury, utilisent Dataform chaque jour pour gérer efficacement leurs données. C’est un produit prometteur et il se positionne clairement comme un outil d’avenir, utilisable dès maintenant, pour accélérer la transformation des pipeline Data dans le cloud.
Pour plus d’information: https://dataform.co/
El Mehdi ZAIMI, Lead Data Engineer | Project Manager PMP® | membre du PMI®