Import av Eksempeldata for Øving
Sveip for å vise menyen
Data Ingestion er prosessen med å hente inn data fra eksterne kilder til ditt Databricks-miljø. Ved å bruke Data Ingestion UI kan du omforme en rå fil, som en CSV, til en strukturert tabell i din Catalog med bare noen få klikk.
Du har satt opp Workspace, og Cluster kjører. Nå trenger vi noe å jobbe med. I virkeligheten kan data komme fra strømmende sensorer eller store skydatabaser, men de fleste dataprosjekter starter med en enkel fil. I dette kapittelet skal du bruke den moderne Data Ingestion-funksjonen til å laste opp en CSV-fil og gjøre den om til en permanent tabell i din Catalog.
Det finnes ulike måter å hente inn data i Databricks på, noen mer avanserte og kompliserte enn andre (for eksempel kan du sette opp egne endepunkter i din skyleverandør, eller koble til tredjepartsapplikasjoner). I dette kapittelet ser vi på den mest grunnleggende: å laste opp data fra din egen datamaskin, slik at du kommer i gang.
Tilgang til dataimport
Det finnes to raske måter å finne dette verktøyet på:
- Klikk på "Ny"-knappen øverst i sidepanelet og velg "Filopplasting".
- Alternativt, gå til Katalog-fanen og klikk på "Opprett tabell"-knappen (ofte representert med et plusstegn).
Steg 2: Laste opp filen
Når du er i opplastingsgrensesnittet, kan du dra og slippe filen din eller bla gjennom datamaskinen.
- Scenarioet: for denne øvelsen bruker vi en eksempel-fil kalt
diamonds.csv; - Opplastingen: når filen er lastet opp, vil Databricks midlertidig lagre den i et "staging"-område mens den forbereder å flytte den inn i Katalogen.
Trinn 3: Konfigurere tabellen (Forhåndsvisning)
Dette er stedet hvor "magien" skjer. Databricks viser en forhåndsvisning av dataene dine.
- Catalog and Schema: du må velge hvor tabellen skal ligge. For nå bruker du
workspacecatalog ogdefaultschema; - Table Name: gi tabellen et tydelig navn, for eksempel
diamonds; - Data Types: Se på kolonnene. Databricks gjetter automatisk om en kolonne er en "String" (tekst), en "Integer" (tall), eller en "Timestamp" (dato). Hvis den gjetter feil, kan du manuelt endre datatypen direkte i brukergrensesnittet.
Steg 4: Opprette tabellen
Klikk på Create Table. Databricks starter nå et lite bakgrunnsjobb (ved bruk av din klynge) for å lese CSV-filen og lagre den som en høyytelses Delta Table. Når dette er fullført, blir du tatt til Table UI, hvor du kan se skjemaet, eksempeldata og til og med hvem som har tillatelse til å se den.
Gratulerer! Du har nå flyttet data fra din personlige datamaskin til den skybaserte Lakehouse-plattformen.
1. Når du laster opp en CSV-fil ved hjelp av Data Ingestion UI, hva gjør Databricks med denne filen?
2. Hvorfor er "Forhåndsvisning"-steget viktig under dataimportprosessen?
3. Hvis du vil finne den nylig opprettede tabellen senere, hvilken sidefeltfane bør du besøke?
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår