Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Håndtering af Filer i Arbejdsområdet | Opsætning af Arbejdsområdet
Databricks Grundlæggende: En Begyndervejledning

Håndtering af Filer i Arbejdsområdet

Stryg for at vise menuen

Note
Definition

I Databricks er der en klar sondring mellem Workspace-filer (dine notesbøger og kode) og Dataobjekter (dine tabeller og rå filer). Kataloget er den moderne adgangsvej, der bruges til at administrere og finde disse dataobjekter.

En af de første ting, du skal lære, er, at Databricks har "to sider af huset." Den ene side er til dit arbejde – dine scripts og notesbøger. Den anden side er til de faktiske data, du analyserer. At forstå, hvor hver del hører til, vil spare dig for meget frustration, når du begynder at skrive kode.

Workspace-filer: Hvor din kode ligger

Når du klikker på Workspace-fanen i sidepanelet, ser du et filsystem for din logik.

  • Her opretter du mapper, undermapper og notesbøger.
  • Du kan også gemme ikke-notesbogsfiler her, såsom små Python-scripts eller kravfiler.
  • Vigtigt: dette er ikke "datatabeller." Du gemmer ikke en 100GB CSV-fil her. Dette område er til din intellektuelle ejendom – koden, der fortæller Databricks, hvad det skal gøre.

Kataloget: Hvor dine data er placeret

Når du vil se dine data, går du til fanen Catalog. Tidligere var Databricks stærkt afhængig af noget, der hedder DBFS (Databricks File System). Selvom du stadig kan støde på referencer til DBFS i ældre dokumentation, betragtes det nu som en forældet tilgang.

I dag bruger vi Catalog (drevet af Unity Catalog). Dette giver en struktureret, "SQL-lignende" måde at se dine data på:

  • Unity Catalogs: en logisk gruppering (f.eks. production_data eller marketing_data) af skemaer;
  • Schemas (eller Databases): en måde at organisere tabeller inden for et katalog samt Volumes (se nedenfor), ML-modeller og funktioner;
  • Tables: de faktiske rækker og kolonner, du vil forespørge.

Volumener: Håndtering af rå filer

Nogle gange har du data, der endnu ikke er en tabel – som en rå CSV-fil eller en billedfil. I det moderne Databricks-brugerinterface gemmes disse i Volumener. Tænk på et Volume som en bro mellem den gamle "mappe"-tankegang og den nye, sikre "Katalog"-tankegang. Du kan gennemse disse volumener direkte i Katalog-brugerfladen for at se dine rå filer, før de indlæses i tabeller.

Hvorfor er denne sondring vigtig?

Det handler om Sikkerhed og Ydeevne. Ved at holde kode i Workspace og data i Catalog kan Databricks-administratorer give en bruger tilladelse til at redigere en notebook uden nødvendigvis at give adgang til følsomme data i en tabel. Denne "adskillelse af ansvarsområder" er det, der gør Databricks til en platform i virksomhedsklassen.

1. Hvis du vil oprette en ny mappe til at organisere dine Python Notebooks, hvilken sidebar-fane skal du så bruge?

2. Hvad er den moderne, anbefalede metode til at administrere og opdage datatabeller i Databricks?

3. Hvilket ældre begreb kan du støde på i ældre Databricks-dokumentation, som nu erstattes af Katalog og Volumes?

question mark

Hvis du vil oprette en ny mappe til at organisere dine Python Notebooks, hvilken sidebar-fane skal du så bruge?

Vælg det korrekte svar

question mark

Hvad er den moderne, anbefalede metode til at administrere og opdage datatabeller i Databricks?

Vælg det korrekte svar

question mark

Hvilket ældre begreb kan du støde på i ældre Databricks-dokumentation, som nu erstattes af Katalog og Volumes?

Vælg det korrekte svar

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 5

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 5
some-alt