Hantera Filer i Arbetsytan
Svep för att visa menyn
I Databricks finns en tydlig skillnad mellan Workspace Files (dina anteckningsböcker och kod) och Data Objects (dina tabeller och råfiler). Catalog är den moderna portalen som används för att hantera och upptäcka dessa dataobjekt.
En av de första sakerna du behöver lära dig är att Databricks har "två sidor av huset." Den ena sidan är för ditt arbete – dina skript och anteckningsböcker. Den andra sidan är för själva datan du analyserar. Att förstå var varje del hör hemma sparar mycket frustration när du börjar skriva kod.
Workspace Files: Där din kod finns
När du klickar på fliken Workspace i sidopanelen ser du ett filsystem för din logik.
- Här skapar du mappar, undermappar och anteckningsböcker.
- Du kan även lagra andra filer här, som små Python-skript eller kravfiler.
- Viktigt: detta är inte "data tables." Du lagrar inte en 100GB CSV-fil här. Detta område är för din immateriella egendom – koden som instruerar Databricks vad som ska göras.
Katalogen: Där din data finns
För att visa din data går du till fliken Catalog. Tidigare använde Databricks något som kallades DBFS (Databricks File System). Du kan fortfarande se hänvisningar till DBFS i äldre dokumentation, men det betraktas nu som en föråldrad metod.
Idag används Catalog (drivs av Unity Catalog). Detta ger ett strukturerat, "SQL-liknande" sätt att visa din data:
- Unity Catalogs: en logisk gruppering (t.ex. production_data eller marketing_data) av scheman;
- Schemas (eller Databases): ett sätt att organisera tabeller inom en katalog, samt Volumes (se nedan), ML-modeller och funktioner;
- Tables: de faktiska raderna och kolumnerna som du kommer att fråga.
Volymer: Hantering av råfiler
Ibland har du data som ännu inte är en tabell – till exempel en rå CSV-fil eller en bildfil. I det moderna Databricks-gränssnittet lagras dessa i Volymer. Tänk på en Volym som en brygga mellan det gamla "mapp"-tänket och det nya, säkra "Katalog"-tänket. Du kan bläddra i dessa volymer direkt i Katalog-gränssnittet för att se dina råfiler innan de laddas in i tabeller.
Varför är åtskillnaden viktig?
Det handlar om Säkerhet och Prestanda. Genom att hålla kod i Arbetsytan och data i Katalogen kan administratörer ge en användare behörighet att redigera en notebook utan att nödvändigtvis ge tillgång till känslig data i en tabell. Denna "ansvarsuppdelning" är det som gör Databricks till en plattform i företagsklass.
1. Om du vill skapa en ny mapp för att organisera dina Python Notebooks, vilken sidopanel ska du använda?
2. Vilket är det moderna, rekommenderade sättet att hantera och upptäcka datatabeller i Databricks?
3. Vilken äldre term kan du se i äldre Databricks-dokumentation som nu ersätts av Katalog och Volymer?
Tack för dina kommentarer!
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal