Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Administrere Filer i Arbeidsområdet | Oppsett av Arbeidsområde
Databricks Grunnleggende: En Nybegynnerguide

Administrere Filer i Arbeidsområdet

Sveip for å vise menyen

Note
Definisjon

I Databricks er det et tydelig skille mellom Workspace Files (notatbøker og kode) og Data Objects (tabeller og råfiler). Catalog er den moderne inngangsporten som brukes til å administrere og oppdage disse dataobjektene.

En av de første tingene du må lære er at Databricks har "to sider av huset." Den ene siden er for arbeidet ditt – skriptene og notatbøkene dine. Den andre siden er for selve dataene du analyserer. Å forstå hvor hver del hører hjemme vil spare deg for mye frustrasjon når du begynner å skrive kode.

Workspace Files: Hvor koden din ligger

Når du klikker på Workspace-fanen i sidepanelet, ser du på et filsystem for din logikk.

  • Dette er stedet hvor du oppretter mapper, undermapper og notatbøker.
  • Du kan også lagre ikke-notatbokfiler her, som små Python-skript eller kravfiler.
  • Viktig: dette er ikke "datatabeller." Du lagrer ikke en 100GB CSV-fil her. Dette området er for din immaterielle eiendom – koden som forteller Databricks hva som skal gjøres.

Katalogen: Hvor dataene dine ligger

Når du vil se dataene dine, går du til Katalog-fanen. Tidligere var Databricks sterkt avhengig av noe som het DBFS (Databricks File System). Selv om du fortsatt kan se referanser til DBFS i eldre dokumentasjon, regnes det nå som en foreldet tilnærming.

I dag bruker vi Katalog (drevet av Unity Catalog). Dette gir en strukturert, "SQL-lignende" måte å vise dataene dine på:

  • Unity-kataloger: en logisk gruppering (f.eks. production_data eller marketing_data) av skjemaer;
  • Skjemaer (eller databaser): en måte å organisere tabeller innenfor en katalog, samt Volumes (se under), ML-modeller og funksjoner;
  • Tabeller: de faktiske radene og kolonnene du skal forespørre.

Volumer: Håndtering av råfiler

Noen ganger har du data som ennå ikke er en tabell – for eksempel en rå CSV-fil eller en bildefil. I det moderne Databricks-grensesnittet lagres disse i Volumer. Tenk på en Volume som en bro mellom den gamle "mappe"-tankegangen og den nye, sikre "Katalog"-tilnærmingen. Du kan bla gjennom disse volumene direkte i Katalog-grensesnittet for å se råfilene dine før de lastes inn i tabeller.

Hvorfor er skillet viktig?

Det handler om sikkerhet og ytelse. Ved å holde kode i Workspace og data i Catalog, kan administratorer i Databricks gi en bruker tillatelse til å redigere et notatbok uten nødvendigvis å gi tilgang til sensitiv data i en tabell. Denne "ansvarsdelingen" er det som gjør Databricks til en plattform på bedriftsnivå.

1. Hvis du vil opprette en ny mappe for å organisere Python-notatbøkene dine, hvilken sidefeltfane bør du bruke?

2. Hva er den moderne, anbefalte måten å administrere og oppdage datatabeller i Databricks?

3. Hvilket eldre begrep kan du se i eldre Databricks-dokumentasjon som nå blir erstattet av Katalog og Volumer?

question mark

Hvis du vil opprette en ny mappe for å organisere Python-notatbøkene dine, hvilken sidefeltfane bør du bruke?

Velg det helt riktige svaret

question mark

Hva er den moderne, anbefalte måten å administrere og oppdage datatabeller i Databricks?

Velg det helt riktige svaret

question mark

Hvilket eldre begrep kan du se i eldre Databricks-dokumentasjon som nå blir erstattet av Katalog og Volumer?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 2. Kapittel 5
some-alt