Lære Import af Eksempeldata til Øvelser | Opsætning af Arbejdsområdet

Databricks Grundlæggende: En Begyndervejledning

Stryg for at vise menuen

Definition

Dataindtagelse er processen med at bringe data fra eksterne kilder ind i dit Databricks-miljø. Ved at bruge Data Ingestion UI kan du omdanne en rå fil, såsom en CSV, til en struktureret tabel i dit Catalog med blot få klik.

Dit Workspace er sat op, og din Cluster kører. Nu har vi brug for noget at arbejde med. I virkeligheden kan data komme fra streamingsensorer eller store cloud-databaser, men de fleste dataprojekter starter med en simpel fil. I dette kapitel vil du bruge den moderne Data Ingestion-funktion til at uploade en CSV-fil og omdanne den til en permanent tabel i dit Catalog.

Bemærk

Der findes forskellige måder at indlæse data i Databricks på, nogle mere avancerede og komplicerede end andre (for eksempel kan du opsætte dine egne endpoints i din cloud-udbyder eller forbinde med tredjepartsapplikationer). I dette kapitel udforsker vi den mest grundlæggende metode: at uploade data fra din egen computer for at komme i gang.

Adgang til dataindtagelse

Der er to hurtige måder at finde dette værktøj på:

Klik på "Ny"-knappen øverst i sidepanelet og vælg "Filupload".
Alternativt kan du gå til fanen Catalog og klikke på "Opret tabel"-knappen (ofte repræsenteret med et plustegn).

Trin 2: Upload af filen

Når du er i upload-grænsefladen, kan du trække og slippe din fil eller gennemse din computer.

Scenariet: til denne øvelse bruger vi en eksempel-fil kaldet diamonds.csv;
Uploaden: når filen er uploadet, gemmer Databricks den midlertidigt i et "staging"-område, mens den forbereder at flytte den til Catalog.

Trin 3: Konfiguration af tabellen (Forhåndsvisning)

Her sker "magien". Databricks viser en forhåndsvisning af dine data.

Catalog og Schema: du skal vælge, hvor tabellen skal placeres. For nu skal du bruge workspace catalog og default schema;
Table Name: giv din tabel et tydeligt navn, såsom diamonds;
Data Types: Se på kolonnerne. Databricks gætter automatisk, om en kolonne er en "String" (tekst), en "Integer" (tal) eller en "Timestamp" (dato). Hvis den gætter forkert, kan du manuelt ændre datatypen direkte i brugerfladen.

Trin 4: Oprettelse af tabellen

Klik på Create Table. Databricks starter nu et lille baggrundsjob (ved brug af din klynge) for at læse CSV-filen og skrive den som en højtydende Delta Table. Når processen er færdig, bliver du ført til Table UI, hvor du kan se skemaet, eksempeldata og endda hvem der har tilladelse til at se den.

Tillykke! Du har nu med succes flyttet data fra din personlige computer til den cloud-native Lakehouse.

Var alt klart?

Tak for dine kommentarer!

Sektion 2. Kapitel 6

Spørg AI

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 6

Import af Eksempeldata til Øvelser

Adgang til dataindtagelse

Trin 2: Upload af filen

Trin 3: Konfiguration af tabellen (Forhåndsvisning)

Trin 4: Oprettelse af tabellen

1. Når du uploader en CSV-fil ved hjælp af Data Ingestion UI, hvad omdanner Databricks denne fil til?

2. Hvorfor er "Preview"-steppet vigtigt under dataindlæsningsprocessen?

3. Hvis du vil finde din nyligt oprettede tabel senere, hvilken sidebar-fane skal du besøge?