Kursinhalt
Einführung in die Datenverarbeitung mit Azure
Einführung in die Datenverarbeitung mit Azure
Verwendung von Bedingter Aufteilung und Filterung in ADF
Dieses Kapitel untersucht, wie man Conditional Split und Filter Transformations in Azure Data Factory (ADF) Data Flows verwendet, um Daten für nachgelagerte Prozesse zu organisieren und zu verfeinern. Sie lernen, wie man Daten basierend auf Bedingungen aufteilt und unerwünschte Datensätze effizient herausfiltert.
In Azure Data Factory kann eine Conditional Split-Transformation verwendet werden, um Datensätze basierend auf Bedingungen zu leiten, wie zum Beispiel das Aufteilen von Daten in "High"- und "Low"-Kategorien basierend auf einem Verkaufsbetrag. Zum Beispiel, wenn der Verkaufsbetrag größer als 1000 ist, wird der Datensatz an den "High Sales"-Ausgang gesendet, andernfalls wird er an den "Low Sales"-Ausgang zur weiteren Verarbeitung gesendet.
Zum Beispiel, wenn Sie Datensätze mit null oder ungültigen E-Mail-Adressen herausfiltern möchten, können Sie einen Filter anwenden, der Datensätze entfernt, bei denen die E-Mail entweder null ist oder nicht einem gültigen E-Mail-Format entspricht.
Wie man bedingte Aufteilung und Filtertransformationen in ADF verwendet
- Erstellen Sie einen neuen Datenfluss oder verwenden Sie einen bestehenden im Author-Bereich von Azure Data Factory Studio;
- Ziehen Sie eine Quelltransformation auf die Datenfluss-Leinwand und konfigurieren Sie sie, um Daten zu erfassen, z. B. aus SQL-Tabellen oder Blob Storage;
- Fügen Sie eine bedingte Aufteilungstransformation aus der Toolbox hinzu und verbinden Sie sie mit Ihrer Datenquelle;
- Definieren Sie in den Einstellungen der bedingten Aufteilung Bedingungen, um die Daten in mehrere Ströme zu teilen. In unserem Fall verwendeten wir Folgendes:
LowRisk
: DeathRate < 5;HighRisk
: DeathRate > 10;MediumRisk
: DeathRate >= 5 und <= 10;
- Fügen Sie eine Filtertransformation hinzu und verbinden Sie sie mit dem Datenstrom, den Sie filtern möchten;
- Definieren Sie in den Filtereinstellungen die Filterbedingung, um nur notwendige Datensätze zu behalten. In unserem Fall blieben nur Datensätze, bei denen das
WeekEndingDate
nach/vor'2021-09-01'
liegt; - Verbinden Sie jeden Ausgabestrom mit separaten Zieltransformationen, um die aufgeteilten Daten in verschiedenen Zielen zu speichern (z. B. eines für geringes Risiko, eines für hohes Risiko und eines für mittleres Risiko);
- Validieren Sie die Datenflusskonfiguration, um sicherzustellen, dass alles korrekt funktioniert.
Danke für Ihr Feedback!