Kursinhalt
Einführung in die Datenverarbeitung mit Azure
Einführung in die Datenverarbeitung mit Azure
Herausforderung: Laden von Daten in Mehrere Tabellen
In dieser Aufgabe arbeiten wir mit Kreditkartendaten, mit dem Hauptziel, diese Daten in Azure zu laden und alle notwendigen Anforderungen zu erfüllen.
Stellen Sie sich vor, Sie arbeiten für eine Bank, die ein erhebliches Volumen an Kreditkartendaten verarbeitet. Ihr Team hat die Aufgabe, diese Daten in ein Format zu organisieren, das basierend auf Kartentypen leicht analysiert werden kann. Ihnen wurde ein Datensatz zur Verfügung gestellt, der Informationen über verschiedene Karten enthält, einschließlich sowohl Debit- als auch Kreditkarten. Ihre Aufgabe ist es, diesen Datensatz in eine Azure SQL-Datenbank zu laden und sicherzustellen, dass die Karteninformationen in separaten Tabellen für jeden Kartentyp gespeichert werden: eine Tabelle für Kreditkarten, eine andere für Debitkarten und so weiter.
Der Hauptdatensatz sieht wie folgt aus:
Diese Aufgabe umfasst:
- Laden von Daten aus CSV-Dateien in die Cloud;
- Aufteilen der Kartendaten in separate Tabellen basierend auf dem Kartentyp;
- Sicherstellen, dass die Daten für zukünftige Analysen ordnungsgemäß formatiert sind.
Die resultierenden Tabellen werden wie folgt aussehen.
Kreditkartentabelle
Debitkartentabelle
Debitkarten (Prepaid) Tabelle
Bitte beachten Sie, dass der Datensatz möglicherweise mehr als drei Kartentypen enthält, sodass Sie für jeden von ihnen separate Tabellen erstellen müssen!
Hinweis
Um diese Aufgabe zu lösen, können Sie die Materialien aus dem zweiten Abschnitt verwenden. Hier ist ein schrittweiser Ansatz, um dies anzugehen:
- Zuerst müssen Sie die Rohdaten in die Datenbank laden. Dies beinhaltet das Lesen der CSV-Datei und das Befüllen der Zieltabelle mit allen Kartendaten;
- Sobald die Daten in der Datenbank sind, stellen Sie sicher, dass die korrekten Datentypen auf jede Spalte angewendet werden (z. B. sicherstellen, dass numerische Felder wie
credit_limit
als numerisch erkannt werden, Datumsfelder wieacct_open_date
korrekt formatiert sind usw.); - Nachdem die Daten geladen und formatiert wurden, können Sie eine Lookup-Aktivität in Azure Data Factory (ADF) durchführen, um alle unterschiedlichen Kartentypen zu identifizieren. Dies gibt Ihnen eine Liste der einzigartigen Kartentypen, die im Datensatz vorhanden sind;
- Verwenden Sie eine ForEach-Aktivität, um jeden einzigartigen Kartentyp separat zu verarbeiten. Innerhalb der Schleife können Sie die Daten nach Kartentyp filtern, um sicherzustellen, dass jeder Kartentyp seine eigene Tabelle hat;
- Für jeden Kartentyp erstellen Sie eine separate Tabelle in Ihrer Datenbank und fügen die relevanten Datensätze aus dem Datensatz ein.
Indem Sie diesen Schritten folgen, können Sie die Daten korrekt trennen und in verschiedene Tabellen basierend auf dem Kartentyp laden.
Danke für Ihr Feedback!