Leer Bestanden Beheren in de Werkruimte

Databricks Fundamentals: Een Beginnersgids

Veeg om het menu te tonen

Definitie

In Databricks is er een duidelijk onderscheid tussen Workspace-bestanden (je notebooks en code) en Data Objects (je tabellen en ruwe bestanden). De Catalog is de moderne toegangspoort die wordt gebruikt om deze data objects te beheren en te ontdekken.

Een van de eerste dingen die je moet leren, is dat Databricks "twee kanten van het huis" heeft. De ene kant is voor je werk – je scripts en notebooks. De andere kant is voor de daadwerkelijke data die je analyseert. Begrijpen waar elk onderdeel zich bevindt, bespaart je veel frustratie wanneer je begint met coderen.

Workspace-bestanden: Waar je code zich bevindt

Wanneer je op het tabblad Workspace in de zijbalk klikt, bekijk je een bestandssysteem voor je logica.

Hier maak je mappen, submappen en notebooks aan.
Je kunt hier ook niet-notebookbestanden opslaan, zoals kleine Python-scripts of requirements-bestanden.
Belangrijk: dit zijn geen "datatabellen." Je slaat hier geen 100GB CSV-bestand op. Dit gebied is bedoeld voor je intellectueel eigendom – de code die Databricks aanstuurt.

De Catalogus: Waar je data zich bevindt

Om je data te bekijken, ga je naar het tabblad Catalogus. In het verleden maakte Databricks veel gebruik van iets dat DBFS (Databricks File System) heet. Hoewel je in oudere documentatie nog verwijzingen naar DBFS kunt tegenkomen, wordt dit nu als een verouderde methode beschouwd.

Tegenwoordig gebruiken we de Catalogus (aangedreven door Unity Catalog). Dit biedt een gestructureerde, "SQL-achtige" manier om je data te bekijken:

Unity Catalogs: een logische groepering (bijvoorbeeld production_data of marketing_data) van schema's;
Schemas (of Databases): een manier om tabellen binnen een catalogus te organiseren, evenals Volumes (zie hieronder), ML-modellen en functies;
Tables: de daadwerkelijke rijen en kolommen die je opvraagt.

Volumes: Werken met ruwe bestanden

Soms heb je data die nog geen tabel is, zoals een ruwe CSV of een afbeeldingsbestand. In de moderne Databricks-UI worden deze opgeslagen in Volumes. Zie een Volume als een brug tussen de oude "map"-benadering en de nieuwe, veilige "Catalogus"-benadering. Je kunt deze volumes direct in de Catalogus-UI bekijken om je ruwe bestanden te zien voordat ze in tabellen worden geladen.

Waarom is het onderscheid belangrijk?

Het draait allemaal om Beveiliging en Prestaties. Door code in de Workspace en data in de Catalogus te houden, kunnen beheerders een gebruiker toestemming geven om een notebook te bewerken zonder dat ze toegang krijgen tot de gevoelige data in een tabel. Deze "scheiding van verantwoordelijkheden" maakt Databricks tot een platform van ondernemingsniveau.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 5

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Sectie 2. Hoofdstuk 5

Bestanden Beheren in de Werkruimte

Workspace-bestanden: Waar je code zich bevindt

De Catalogus: Waar je data zich bevindt

Volumes: Werken met ruwe bestanden

Waarom is het onderscheid belangrijk?

1. Als je een nieuwe map wilt maken om je Python Notebooks te organiseren, welk zijbalktabblad moet je dan gebruiken?

2. Wat is de moderne, aanbevolen manier om datatabellen in Databricks te beheren en te ontdekken?

3. Welke verouderde term kunt u tegenkomen in oudere Databricks-documentatie die nu wordt vervangen door de Catalogus en Volumes?