Contenu du cours
Introduction à l'Ingénierie des Données avec Azure
Introduction à l'Ingénierie des Données avec Azure
Utilisation de la Division Conditionnelle et du Filtrage dans ADF
Ce chapitre explore comment utiliser Conditional Split et Filter Transformations dans les flux de données d'Azure Data Factory (ADF) pour organiser et affiner les données pour les processus en aval. Vous apprendrez à diviser les données en fonction de conditions et à filtrer efficacement les enregistrements indésirables.
Dans Azure Data Factory, une transformation Conditional Split peut être utilisée pour diriger les enregistrements en fonction de conditions, telles que la division des données en catégories "High" et "Low" basées sur un montant de vente. Par exemple, si le montant des ventes est supérieur à 1000, l'enregistrement est envoyé à la sortie "High Sales", sinon, il est envoyé à la sortie "Low Sales" pour un traitement ultérieur.
Par exemple, si vous souhaitez filtrer les enregistrements avec des adresses e-mail nulles ou invalides, vous pouvez appliquer un filtre qui supprime les enregistrements où l'e-mail est soit nul, soit ne correspond pas à un format d'e-mail valide.
Comment utiliser les transformations de division conditionnelle et de filtrage dans ADF
- Créez un nouveau flux de données ou utilisez-en un existant dans la section Auteur de Azure Data Factory Studio;
- Faites glisser une transformation de source sur le canevas du flux de données et configurez-la pour ingérer des données, telles que des tables SQL ou Blob Storage;
- Ajoutez une transformation de division conditionnelle depuis la boîte à outils et connectez-la à votre source de données;
- Dans les paramètres de division conditionnelle, définissez des conditions pour diviser les données en plusieurs flux. Dans notre cas, nous avons utilisé les suivants :
LowRisk
: DeathRate < 5;HighRisk
: DeathRate > 10;MediumRisk
: DeathRate >= 5 and <= 10;
- Ajoutez une transformation de filtrage et connectez-la au flux de données que vous souhaitez filtrer;
- Dans les paramètres de filtrage, définissez la condition de filtrage pour ne conserver que les enregistrements nécessaires. Dans notre cas, nous avons conservé uniquement les enregistrements où la
WeekEndingDate
est après/avant'2021-09-01'
; - Connectez chaque flux de sortie à des transformations de destination séparées pour stocker les données divisées dans différentes destinations (par exemple, une pour le faible risque, une pour le risque élevé et une pour le risque moyen);
- Validez la configuration du flux de données pour vous assurer que tout fonctionne correctement.
Merci pour vos commentaires !