Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Hantera Filer i Arbetsytan | Konfigurera Arbetsytan
Databricks-Grunder: En Nybörjarguide

Hantera Filer i Arbetsytan

Svep för att visa menyn

Note
Definition

I Databricks finns en tydlig skillnad mellan Workspace Files (dina anteckningsböcker och kod) och Data Objects (dina tabeller och råfiler). Catalog är den moderna portalen som används för att hantera och upptäcka dessa dataobjekt.

En av de första sakerna du behöver lära dig är att Databricks har "två sidor av huset." Den ena sidan är för ditt arbete – dina skript och anteckningsböcker. Den andra sidan är för själva datan du analyserar. Att förstå var varje del hör hemma sparar mycket frustration när du börjar skriva kod.

Workspace Files: Där din kod finns

När du klickar på fliken Workspace i sidopanelen ser du ett filsystem för din logik.

  • Här skapar du mappar, undermappar och anteckningsböcker.
  • Du kan även lagra andra filer här, som små Python-skript eller kravfiler.
  • Viktigt: detta är inte "data tables." Du lagrar inte en 100GB CSV-fil här. Detta område är för din immateriella egendom – koden som instruerar Databricks vad som ska göras.

Katalogen: Där din data finns

För att visa din data går du till fliken Catalog. Tidigare använde Databricks något som kallades DBFS (Databricks File System). Du kan fortfarande se hänvisningar till DBFS i äldre dokumentation, men det betraktas nu som en föråldrad metod.

Idag används Catalog (drivs av Unity Catalog). Detta ger ett strukturerat, "SQL-liknande" sätt att visa din data:

  • Unity Catalogs: en logisk gruppering (t.ex. production_data eller marketing_data) av scheman;
  • Schemas (eller Databases): ett sätt att organisera tabeller inom en katalog, samt Volumes (se nedan), ML-modeller och funktioner;
  • Tables: de faktiska raderna och kolumnerna som du kommer att fråga.

Volymer: Hantering av råfiler

Ibland har du data som ännu inte är en tabell – till exempel en rå CSV-fil eller en bildfil. I det moderna Databricks-gränssnittet lagras dessa i Volymer. Tänk på en Volym som en brygga mellan det gamla "mapp"-tänket och det nya, säkra "Katalog"-tänket. Du kan bläddra i dessa volymer direkt i Katalog-gränssnittet för att se dina råfiler innan de laddas in i tabeller.

Varför är åtskillnaden viktig?

Det handlar om Säkerhet och Prestanda. Genom att hålla kod i Arbetsytan och data i Katalogen kan administratörer ge en användare behörighet att redigera en notebook utan att nödvändigtvis ge tillgång till känslig data i en tabell. Denna "ansvarsuppdelning" är det som gör Databricks till en plattform i företagsklass.

1. Om du vill skapa en ny mapp för att organisera dina Python Notebooks, vilken sidopanel ska du använda?

2. Vilket är det moderna, rekommenderade sättet att hantera och upptäcka datatabeller i Databricks?

3. Vilken äldre term kan du se i äldre Databricks-dokumentation som nu ersätts av Katalog och Volymer?

question mark

Om du vill skapa en ny mapp för att organisera dina Python Notebooks, vilken sidopanel ska du använda?

Vänligen välj det korrekta svaret

question mark

Vilket är det moderna, rekommenderade sättet att hantera och upptäcka datatabeller i Databricks?

Vänligen välj det korrekta svaret

question mark

Vilken äldre term kan du se i äldre Databricks-dokumentation som nu ersätts av Katalog och Volymer?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 5

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 2. Kapitel 5
some-alt