Import af Eksempeldata til Øvelser
Stryg for at vise menuen
Dataindtagelse er processen med at bringe data fra eksterne kilder ind i dit Databricks-miljø. Ved at bruge Data Ingestion UI kan du omdanne en rå fil, såsom en CSV, til en struktureret tabel i dit Catalog med blot få klik.
Dit Workspace er sat op, og din Cluster kører. Nu har vi brug for noget at arbejde med. I virkeligheden kan data komme fra streamingsensorer eller store cloud-databaser, men de fleste dataprojekter starter med en simpel fil. I dette kapitel vil du bruge den moderne Data Ingestion-funktion til at uploade en CSV-fil og omdanne den til en permanent tabel i dit Catalog.
Der findes forskellige måder at indlæse data i Databricks på, nogle mere avancerede og komplicerede end andre (for eksempel kan du opsætte dine egne endpoints i din cloud-udbyder eller forbinde med tredjepartsapplikationer). I dette kapitel udforsker vi den mest grundlæggende metode: at uploade data fra din egen computer for at komme i gang.
Adgang til dataindtagelse
Der er to hurtige måder at finde dette værktøj på:
- Klik på "Ny"-knappen øverst i sidepanelet og vælg "Filupload".
- Alternativt kan du gå til fanen Catalog og klikke på "Opret tabel"-knappen (ofte repræsenteret med et plustegn).
Trin 2: Upload af filen
Når du er i upload-grænsefladen, kan du trække og slippe din fil eller gennemse din computer.
- Scenariet: til denne øvelse bruger vi en eksempel-fil kaldet
diamonds.csv; - Uploaden: når filen er uploadet, gemmer Databricks den midlertidigt i et "staging"-område, mens den forbereder at flytte den til Catalog.
Trin 3: Konfiguration af tabellen (Forhåndsvisning)
Her sker "magien". Databricks viser en forhåndsvisning af dine data.
- Catalog og Schema: du skal vælge, hvor tabellen skal placeres. For nu skal du bruge
workspacecatalog ogdefaultschema; - Table Name: giv din tabel et tydeligt navn, såsom
diamonds; - Data Types: Se på kolonnerne. Databricks gætter automatisk, om en kolonne er en "String" (tekst), en "Integer" (tal) eller en "Timestamp" (dato). Hvis den gætter forkert, kan du manuelt ændre datatypen direkte i brugerfladen.
Trin 4: Oprettelse af tabellen
Klik på Create Table. Databricks starter nu et lille baggrundsjob (ved brug af din klynge) for at læse CSV-filen og skrive den som en højtydende Delta Table. Når processen er færdig, bliver du ført til Table UI, hvor du kan se skemaet, eksempeldata og endda hvem der har tilladelse til at se den.
Tillykke! Du har nu med succes flyttet data fra din personlige computer til den cloud-native Lakehouse.
1. Når du uploader en CSV-fil ved hjælp af Data Ingestion UI, hvad omdanner Databricks denne fil til?
2. Hvorfor er "Preview"-steppet vigtigt under dataindlæsningsprocessen?
3. Hvis du vil finde din nyligt oprettede tabel senere, hvilken sidebar-fane skal du besøge?
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat