CI/CD pour les pipelines dans Data Factory dans Microsoft Fabric

Article
11/25/2024

Dans Fabric Data Factory, l’intégration continue et livraison continue (CI/CD) automatise l’intégration, le test et le déploiement des modifications de code pour garantir un développement efficace et fiable.

Dans Fabric, nous prenons actuellement en charge deux fonctionnalités en collaboration avec l’équipe Application Lifecycle Management (ALM) : l’intégration Git les pipelines de déploiement. Ces fonctionnalités permettent aux utilisateurs d’importer/exporter des ressources d’espace de travail avec des mises à jour individuelles.

La solution CI/CD Fabric Data Factory s’écarte du modèle Azure Data Factory, où les mises à jour de fabrique entière à l’aide de la méthodologie d’exportation de modèle ARM sont préférées. Ce changement de méthodologie permet aux clients de choisir sélectivement les pipelines à mettre à jour sans interrompre l’ensemble de la fabrique. L’intégration Git (apportez votre propre Git) et les pipelines de déploiement (CI/CD intégré) utilisent tous deux le concept d’association d’un espace de travail unique à un environnement unique. Vous devez associer différents espaces de travail à vos différents environnements, tels que développement, test, et production.

Pourquoi les développeurs utilisent CI/CD

CI/CD est une pratique qui automatise la livraison de logiciels et élimine quelques difficultés importantes :

Problèmes liés à l’intégration manuelle : sans CI/CD, l’intégration manuelle des modifications de code peut entraîner des conflits et des erreurs, ce qui ralentit le développement.
Retards de développement : les déploiements manuels sont fastidieux et sujets aux erreurs, ce qui entraîne des retards dans la fourniture de nouvelles fonctionnalités et mises à jour.
Environnements incohérents : différents environnements (développement, test et production) peuvent avoir des incohérences, provoquant des problèmes difficiles à déboguer.
Absence de visibilité : sans CI/CD, le suivi des modifications et la compréhension de l’état du codebase peuvent être difficiles.

Présentation de CI/CD, de Git, et des pipelines de déploiement

CI/CD implique une intégration continue et une livraison continue.

Intégration continue (CI)

Les développeurs commitent fréquemment dans une branche principale managée par Git, ce qui déclenche des tests automatisés et des builds pour l’intégration. Git effectue le suivi des modifications pour activer l’extraction et le test automatiques des nouveaux commits.

Déploiement continu (CD)

Est axée sur le déploiement de modifications vérifiées dans les développements de production via des phases de déploiement structurées dans les pipelines de déploiement.

Intégration de Git avec des pipelines Data Factory

Git est un système de contrôle de version qui permet aux développeurs de suivre les modifications dans leur codebase (ou définitions de code JSON, dans le cas de pipelines) et de collaborer avec d’autres personnes. Il fournit un dépôt centralisé où les modifications de code sont stockées et gérées. Actuellement, Git est pris en charge dans Fabric via GitHub ou Azure DevOps. Il existe quelques concepts essentiels du workflow à comprendre lors de l’utilisation de Git.

Branche primaire : la branche primaire, parfois appelée branche maîtresse, contient du code prêt pour la production.
Branches de fonctionnalités : ces branches sont distinctes de la branche primaire, et permettent d’effectuer un développement isolé sans modifier la branche primaire.
Demandes de tirage (PR) : les demandes de tirage (pull requests) permettent aux utilisateurs de proposer, réviser et discuter des modifications avant l’intégration.
Fusion : elle se produit lorsque les modifications sont approuvées. Git intègre ces modifications, mettant à jour le projet en continu.

Pipelines de déploiement pour Git

Les pipelines de déploiement sont étroitement intégrés à Git. Lorsqu’un développeur envoie (push) du code vers le dépôt Git, il déclenche le pipeline CI/CD. Cette intégration garantit que les dernières modifications de code sont toujours testées et déployées automatiquement.

Phases et travaux

Les pipelines de déploiement se composent de plusieurs phases et travaux au sein de chaque phase. En règle générale, ces phases sont séparées en trois environnements : développement (compilation de code), test (exécution de tests) et production (déploiement de l’application). Le pipeline passe par ces différentes phases, ce qui garantit que le code est rigoureusement testé et déployé de manière contrôlée.

Workflows automatisés

Les pipelines de déploiement automatisent l’ensemble du processus de génération, de test et de déploiement de code. Cette automatisation réduit le risque d’erreur humaine, accélère le processus de développement, et garantit que les modifications du code sont livrées à la production de manière constante et fiable.

Prise en main de l’intégration Git pour les pipelines Data Factory

Effectuez les étapes suivantes afin de configurer l’intégration Git pour vos pipelines dans Data Factory :

Configuration requise pour l’intégration Git

Pour accéder à Git avec votre espace de travail Microsoft Fabric, veillez aux configurations requises suivantes pour Fabric et Git.

Une licence Power BI Premium ou une capacité Fabric.
Avoir activé les basculements de tenant suivants à partir du portail d’administration :
- Les utilisateurs peuvent créer des éléments Fabric
- Les utilisateurs peuvent synchroniser des éléments d’espace de travail avec leurs référentiels Git
- (Pour les utilisateurs GitHub uniquement) : les utilisateurs peuvent synchroniser des éléments d’espace de travail avec des référentiels GitHub
Un compte Azure DevOps ou GitHub.
- Pour un compte Azure DevOps :
  - Un compte Azure actif inscrit auprès du même utilisateur qui utilise l’espace de travail Fabric. Créer un compte gratuit.
  - Accès à un référentiel existant
- Pour un compte GitHub :
  - Un compte GitHub actif. Créer un compte gratuit.
  - Un jeton de granularité fine avec des autorisations en lecture et écriture pour Contenus, sous les autorisations de référentiel, ou un jeton classique GitHub avec des étendues de référentiel activées.

Étape 1 : se connecter à un référentiel Git

Pour utiliser l’intégration Git avec des pipelines Data Factory dans Fabric, vous devez d’abord vous connecter à un dépôt Git, comme indiqué ici.

Connectez-vous à Fabric et accédez à l’espace de travail avec lequel vous souhaitez vous connecter à Git.
Sélectionnez Paramètres de l’espace de travail.
Configurer l’intégration de Git.
Sélectionnez votre fournisseur Git. Fabric prend en charge Azure DevOps ou GitHub uniquement à l’heure actuelle. Si vous utilisez GitHub, vous devez sélectionner Ajouter un compte pour connecter votre compte GitHub. Une fois connecté, sélectionnez Se connecter pour autoriser Fabric à accéder à votre compte GitHub.

Étape 2 : se connecter à un espace de travail

Une fois connecté à un référentiel Git, vous devez vous connecter à un espace de travail, comme indiqué ici.

Dans le menu déroulant, spécifiez les détails suivants sur la branche à laquelle vous souhaitez vous connecter :
1. Pour les connexions de branche Azure DevOps, spécifiez les informations suivantes :
  - Organisation : le nom d’organisation Azure DevOps.
  - Projet : le nom de projet Azure DevOps.
  - Référentiel : le nom du référentiel Azure DevOps.
  - Branche : le nom de branche Azure DevOps.
  - Dossier : le nom de dossier Azure DevOps.
2. Pour les connexions de branche GitHub, spécifiez les informations suivantes :
  - URL de référentiel : l’URL de référentiel GitHub.
  - Branche :le nom de la branche GitHub.
  - Dossier : le nom de dossier GitHub.
Sélectionnez Se connecter et synchroniser.
Une fois connecté, l’espace de travail affiche des informations sur le contrôle de code source qui permettent aux utilisateurs d’afficher la branche connectée, l’état de chaque élément de la branche et l’heure de la dernière synchronisation.

Étape 3 : valider les modifications apportées à Git

Après vous être connecté à un dépôt Git et à un espace de travail, vous pouvez commiter les modifications apportées dans Git, comme décrit ici.

Accéder à l’espace de travail.
Sélectionnez l’icône Contrôle de code source. Cette icône affiche le nombre de modifications non validées.
Sélectionnez l’onglet Modifications dans le volet Contrôle de code source. Une liste s’affiche avec tous les éléments que vous avez modifiés et une icône indiquant l’état : Nouveau , Modifié , En conflit, ou Supprimé.
Sélectionnez les éléments que vous voulez valider. Pour sélectionner tous les éléments, cochez la case du haut.
(Facultatif) Ajoutez un commentaire de validation dans la zone.
Sélectionner Valider.

Une fois les modifications validées, les éléments qui ont été validés sont supprimés de la liste et l’espace de travail pointe vers la nouvelle validation avec laquelle il est synchronisé.

Étape 4 : (Facultative) Mettre à jour l’espace de travail à partir de Git

Accéder à l’espace de travail.
Sélectionnez l’icône Contrôle de code source.
Sélectionnez Mises à jour dans le panneau Contrôle de code source. Une liste s’affiche avec tous les éléments qui ont été modifiés dans la branche à partir de la source de connexion Git depuis la dernière mise à jour.
Sélectionnez Tout mettre à jour.

Une fois la mise à jour réussie, la liste des éléments est supprimée, et l’espace de travail pointe vers le nouveau commit avec lequel il est synchronisé.

Démarrer les pipelines de déploiement pour Git

Suivez les étapes suivantes pour utiliser les pipelines de déploiement Git avec votre espace de travail Fabric.

Configuration requise pour les pipelines de déploiement

Avant de commencer, veillez à configurer la configuration requise suivante :

Un abonnement Microsoft Fabric actif.
Accès administrateur à un espace de travail Fabric.

Étape 1 : créer un pipeline de déploiement

Dans le menu déroulant Espaces de travail, sélectionnez Pipelines de déploiement.
Sélectionnez Créer un pipeline ou + Nouveau pipeline.

Étape 2 : nommer le pipeline et affecter des phases

Dans la boîte de dialogue Créer un pipeline de déploiement, entrez un nom et une description pour le pipeline, puis sélectionnez Suivant.
Définissez la structure de votre pipeline de déploiement en définissant les étapes requises pour votre pipeline de déploiement. Par défaut, le pipeline comporte trois phases : Développement, Test et Production.

Vous pouvez ajouter une autre phase, supprimer des phases ou les renommer en tapant un nouveau nom dans la zone. Quand vous avez terminé, sélectionnez Créer (ou Créer et continuer).

Étape 3 : attribuer un espace de travail à un pipeline de déploiement

Après avoir créé un pipeline, vous devez ajouter le contenu que vous souhaitez gérer au pipeline. L’ajout de contenu au pipeline s’effectue en affectant un espace de travail à l’étape de pipeline. Vous pouvez affecter un espace de travail à n’importe quelle étape. Suivez les instructions sur Attribuer un espace de travail à une phase de pipeline.

Étape 4 : déployer sur une phase vide

Lorsque vous avez fini de travailler avec le contenu au cours d’une phase du pipeline, vous pouvez le déployer vers la phase suivante. Les pipelines de déploiement offrent trois options pour déployer votre contenu :
- Déploiement complet : déployez tout votre contenu vers la phase cible.
- Déploiement sélectif : sélectionnez le contenu à déployer vers la phase cible.
- Déploiement descendant : déployez du contenu d’une phase ultérieure vers une phase antérieure du pipeline. Actuellement, le déploiement vers l’amont est possible seulement quand la phase cible est vide (aucun espace de travail ne lui est affecté).
Après avoir choisi comment déployer votre contenu, vous pouvez Vérifier votre déploiement et laisser une note.

Étape 5 : déployer du contenu d’une phase vers une autre

Une fois que vous avez du contenu dans une étape de pipeline, vous pouvez le déployer vers l'étape suivante, même si l'espace de travail de l'étape suivante contient du contenu. Les éléments associés sont remplacés. Pour plus d’informations sur ce processus, consultez la section Déployer du contenu dans un espace de travail existant.
Vous pouvez examiner l’historique des déploiements pour voir la dernière fois que du contenu a été déployé vers chaque phase. Pour examiner les différences entre les deux pipelines avant le déploiement, consultez Comparer le contenu dans différentes étapes de déploiement.

Limitations connues

Les limitations connues suivantes s’appliquent à l’intégration continue et livraison continue (CI/CD) pour les pipelines dans Data Factory dans Microsoft Fabric :

Variables d’espace de travail : CI/CD ne prend pas en charge les variables d’espace de travail actuellement.
Prise en charge limitée de l’intégration Git : actuellement, Fabric prend en charge l’intégration Git uniquement avec Azure DevOps et GitHub. L’intégration Git Azure DevOps est recommandée, car l’intégration Git GitHub a d’autres limitations.
Activités de pipeline avec connecteurs OAuth : pour les connecteurs MS Teams et Outlook, lors du déploiement dans un environnement plus élevé, les utilisateurs doivent ouvrir manuellement chaque pipeline et se connecter à chaque activité, ce qui est une limitation actuellement.
Pipelines appelant des flux de données : lorsqu’un pipeline qui appelle un flux de données est promu, il référence toujours le flux de données dans l’espace de travail précédent, ce qui est incorrect. Ce comportement est dû au fait que les flux de données ne sont actuellement pas pris en charge dans les pipelines de déploiement.

Partager via

CI/CD pour les pipelines dans Data Factory dans Microsoft Fabric

Pourquoi les développeurs utilisent CI/CD