ワークスペース内のファイル管理
メニューを表示するにはスワイプしてください
Databricks では、ワークスペースファイル(ノートブックやコード)とデータオブジェクト(テーブルや生データファイル)が明確に区別されています。カタログは、これらのデータオブジェクトを管理・発見するための最新のゲートウェイです。
Databricks で最初に学ぶべきことの一つは、「2つの側面」が存在するということです。一方は作業用、つまりスクリプトやノートブックのための領域です。もう一方は、実際に分析するデータのための領域です。それぞれの保存場所を理解しておくことで、コードを書き始めたときの混乱を大幅に減らすことができます。
ワークスペースファイル:コードの保存場所
サイドバーの Workspace タブをクリックすると、ロジック 用のファイルシステムが表示されます。
- ここではフォルダーやサブフォルダー、ノートブックを作成できます。
- 小規模な Python スクリプトや requirements ファイルなど、ノートブック以外のファイルも保存可能です。
- 重要: ここは「データテーブル」ではありません。100GB の CSV ファイルなどを保存する場所ではありません。この領域は知的財産、つまり Databricks に何をさせるかを記述したコードのためのものです。
カタログ:データの保存場所
データを確認したい場合は、カタログタブを使用。
以前は、Databricks は主に DBFS (Databricks File System) を利用していました。古いドキュメントでは DBFS への言及が残っていますが、現在ではレガシーな方法とされています。
現在は、カタログ(Unity Catalog により提供)を利用。これにより、構造化された「SQL のような」方法でデータを閲覧可能:
- Unity Catalogs: スキーマの論理的なグループ(例:production_data や marketing_data)
- Schemas(または Databases): カタログ内でテーブルやボリューム(下記参照)、ML モデル、関数を整理する方法
- Tables: 実際にクエリする行と列
ボリューム:生ファイルの管理
テーブル化されていないデータ(例:生のCSVファイルや画像ファイル)がある場合、最新のDatabricks UIではこれらはボリュームに保存されます。ボリュームは、従来の「フォルダー」的な考え方と、新しい安全な「カタログ」的な考え方をつなぐ橋渡しの役割を果たします。カタログUI内でこれらのボリュームを直接参照し、テーブルに取り込む前の生ファイルを確認できます。
区別が重要な理由
これはすべてセキュリティとパフォーマンスに関わります。ワークスペースにコードを、カタログにデータを分けて管理することで、Databricksでは管理者がユーザーにノートブックの編集権限を与えつつ、テーブル内の機密データへのアクセス権限を与えないようにできます。この「関心の分離」により、Databricksはエンタープライズ向けのプラットフォームとなっています。
1. Pythonノートブックを整理するために新しいフォルダーを作成したい場合、どのサイドバータブを使用すべきですか?
2. Databricksでデータテーブルを管理および発見するための最新かつ推奨される方法は何ですか?
3. 古いDatabricksドキュメントで見かける可能性があり、現在はカタログやボリュームに置き換えられている従来の用語はどれですか?
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください