Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Import av Eksempeldata for Øving | Oppsett av Arbeidsområde
Databricks Grunnleggende: En Nybegynnerguide

Import av Eksempeldata for Øving

Sveip for å vise menyen

Note
Definisjon

Data Ingestion er prosessen med å hente inn data fra eksterne kilder til ditt Databricks-miljø. Ved å bruke Data Ingestion UI kan du omforme en rå fil, som en CSV, til en strukturert tabell i din Catalog med bare noen få klikk.

Du har satt opp Workspace, og Cluster kjører. Nå trenger vi noe å jobbe med. I virkeligheten kan data komme fra strømmende sensorer eller store skydatabaser, men de fleste dataprosjekter starter med en enkel fil. I dette kapittelet skal du bruke den moderne Data Ingestion-funksjonen til å laste opp en CSV-fil og gjøre den om til en permanent tabell i din Catalog.

Note
Merk

Det finnes ulike måter å hente inn data i Databricks på, noen mer avanserte og kompliserte enn andre (for eksempel kan du sette opp egne endepunkter i din skyleverandør, eller koble til tredjepartsapplikasjoner). I dette kapittelet ser vi på den mest grunnleggende: å laste opp data fra din egen datamaskin, slik at du kommer i gang.

Tilgang til dataimport

Det finnes to raske måter å finne dette verktøyet på:

  • Klikk på "Ny"-knappen øverst i sidepanelet og velg "Filopplasting".
  • Alternativt, gå til Katalog-fanen og klikk på "Opprett tabell"-knappen (ofte representert med et plusstegn).

Steg 2: Laste opp filen

Når du er i opplastingsgrensesnittet, kan du dra og slippe filen din eller bla gjennom datamaskinen.

  • Scenarioet: for denne øvelsen bruker vi en eksempel-fil kalt diamonds.csv;
  • Opplastingen: når filen er lastet opp, vil Databricks midlertidig lagre den i et "staging"-område mens den forbereder å flytte den inn i Katalogen.

Trinn 3: Konfigurere tabellen (Forhåndsvisning)

Dette er stedet hvor "magien" skjer. Databricks viser en forhåndsvisning av dataene dine.

  • Catalog and Schema: du må velge hvor tabellen skal ligge. For nå bruker du workspace catalog og default schema;
  • Table Name: gi tabellen et tydelig navn, for eksempel diamonds;
  • Data Types: Se på kolonnene. Databricks gjetter automatisk om en kolonne er en "String" (tekst), en "Integer" (tall), eller en "Timestamp" (dato). Hvis den gjetter feil, kan du manuelt endre datatypen direkte i brukergrensesnittet.

Steg 4: Opprette tabellen

Klikk på Create Table. Databricks starter nå et lite bakgrunnsjobb (ved bruk av din klynge) for å lese CSV-filen og lagre den som en høyytelses Delta Table. Når dette er fullført, blir du tatt til Table UI, hvor du kan se skjemaet, eksempeldata og til og med hvem som har tillatelse til å se den.

Gratulerer! Du har nå flyttet data fra din personlige datamaskin til den skybaserte Lakehouse-plattformen.

1. Når du laster opp en CSV-fil ved hjelp av Data Ingestion UI, hva gjør Databricks med denne filen?

2. Hvorfor er "Forhåndsvisning"-steget viktig under dataimportprosessen?

3. Hvis du vil finne den nylig opprettede tabellen senere, hvilken sidefeltfane bør du besøke?

question mark

Når du laster opp en CSV-fil ved hjelp av Data Ingestion UI, hva gjør Databricks med denne filen?

Velg det helt riktige svaret

question mark

Hvorfor er "Forhåndsvisning"-steget viktig under dataimportprosessen?

Velg det helt riktige svaret

question mark

Hvis du vil finne den nylig opprettede tabellen senere, hvilken sidefeltfane bør du besøke?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 6

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 2. Kapittel 6
some-alt