1. Home
  2. Data Engineering
  3. Introduction à Dataform
Introduction à Dataform

Introduction à Dataform

0
0

Introduction

Gérer la transformation et l’intégration des données dans les entrepôts de données modernes n’a jamais été aussi intuitive qu’avec Dataform. 

En effet, Dataform est un IDE qui permet de créer des flux de données modernes dans les Datawarehouse cloud tels que Google BigQuery, Amazon Redshift ou Snowflake.

Cet article est une introduction à Dataform. D’autres articles suiveront pour présenter des retours d’expériences et des tutoriels pour mieux explorer et s’approprier cet outil.

Histoire de Dataform

Dataform est une startup Anglaise, fondée par Lewis Hemens et Guillaume-Henri Huon. Ce sont deux ex-Google qui ont souhaité moderniser la gestion des entrepôts de données. Les deux fondateurs qualifient Dataform comme un OS pour le data warehouse.

Dataform founders

Lewis Hemens et Guillaume-Henri Huon, fondateurs de Dataform

Fin 2020, Dataform a été racheté par Google. Ainsi, il est désormais gratuit pour les utilisateurs de la suite GCP (Google Cloud Platform).

Dataform, un IDE nouvelle génération pour les équipes Data

Dataform est un IDE (Integrated development environment). Il permet aux équipes Data (analystes, ingénieurs, etc) de collaborer plus efficacement. Notamment grâce à l’utilisation du langage SQL et de Git pour le versioning des scripts. Le schéma ci-dessous illustre le positionnement de Dataform dans une chaîne de transformation des données. Dataform utilise les meilleures pratiques issues du monde de développement IT.

Best practices

Dataform crée un répertoire unique pour l’ensemble de votre data management. En effet, les définitions des données sont stockées dans un répertoire unique. De même, il synchronise ces informations avec Git pour les rendre accessibles à toute l’équipe.

  1. Version control:  l’IDE Dataform est intégré avec Git. Cela permet aux utilisateurs de travailler à partir de leurs branches individuelles. Ainsi, il est possible de publier directement les modifications ou les soumettre à une code-review.
  2. Automatisation des tests qualité des données: Dataform vous permet de définir et d’appliquer des tests qualité sur l’ensemble de vos données. De même, des alertes automatiques permettent de détecter les erreurs potentielles avant qu’ils atteignent vos analyses.
  3. Déploiements sécurisés. Dataform vous aide à appliquer le sandboxing, les environnements de développement et CI / CD pour intégrer les nouvelles modifications en toute sécurité.

Planification, logging et alertes 

Il est possible de planifier dans Dataform l’actualisation de vos ensembles de données. En effet, l’actualisation de vos données peut être déclenchée tous les jours, toutes les heures ou même toutes les 5 minutes sans avoir à maintenir une infrastructure personnalisée. De même, il vous alerte lorsque des erreurs potentielles se produisent.

Data Lineage: Où se situe Dataform dans une pipeline de données moderne?

Les solutions cloud (y compris BigQuery, Redshift et Snowflake) sont devenues la norme d’entrepôt de données pour la plupart des entreprises. De ce fait, de nombreux produits aident les entreprises à charger des données dans ces entrepôts, des événements Web aux bases de données de production et aux applications SaaS. 
Avec Dataform, les équipes Data et les analystes peuvent gérer tous les processus de transformation des données se déroulant dans l’entrepôt. Ainsi, la transformation des données brutes en ensembles de données prêts à être analysés dans des outils BI, devient plus lisible.

Conclusion

De nombreuses entreprises, des startups de haute technologie aux grands détaillants comme Charlotte Tilbury, utilisent Dataform chaque jour pour gérer efficacement leurs données. C’est un produit prometteur et il se positionne clairement comme un outil d’avenir, utilisable dès maintenant, pour accélérer la transformation des pipeline Data dans le cloud.

Pour plus d’information: https://dataform.co/

El Mehdi ZAIMI, Lead Data Engineer | Project Manager PMP® | membre du PMI®

Visited 126 times, 1 visit(s) today
El Mehdi ZAIMI El Mehdi ZAIMI, Ingénieur spécialisé dans les métiers de la Data, Project Manager certifié PMP® et membre du PMI®. Je suis passionné par la Business Intelligence, le Big Data, l’IA et le pilotage des projets.

LEAVE YOUR COMMENT

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *