最初のコンピュートリソースの作成
メニューを表示するにはスワイプしてください
コンピュートリソース(クラスター)の作成は、データタスクを実行するためにクラウド上で仮想ハードウェアをプロビジョニングする作業。学習目的では、パフォーマンスとコストのバランスを取るためにシングルノード構成を使用。
「エンジン」を起動するタイミング。この章では、最初のクラスターを作成するための具体的な手順を案内。これは、後で記述するSQLやPythonコードを実行するためのリソース。環境が正しく、かつコスト効率よく設定されるよう、手順に従うこと。
Databricksでは、ワークフローに適したjob computeなど、より専門的なクラスターも作成可能。この章の目的は基本を学ぶことであり、all-purpose clusterの作成を扱うが、他のクラスターカテゴリの作成や管理にも同じ内容が適用可能。
ステップ 1: コンピュートメニューへのアクセス
左側のサイドバーで、Compute アイコンをクリック。コンピュートの概要ページに移動します。右上隅にある青い Create Compute ボタンをクリック。
ステップ 2: クラスタータイプの選択
上部に主なオプションが2つ表示されます: Multi Node と Single Node。
- Single Node を選択。理由: Multi-node クラスターは大規模なエンタープライズ向けデータ用。学習用途では、Single Node クラスターの方がはるかに安価(エディションによっては無料)で、使用するデータセットには十分な性能を提供。
ステップ3:名前付けとランタイム
- Name: クラスターに分かりやすい名前(例:
Student_Cluster_1)を設定 - Databricks Runtime Version: このドロップダウンで「エンジン」バージョンを選択。LTSと表示された最新バージョンを選択。LTSは「Long Term Support(長期サポート)」の略で、最も安定したバージョン。多くの企業が実際のプロジェクトで利用。
ステップ4:「ハードウェア」の設定
Node Type では、クラウド仮想マシンの一覧(Azureの場合は Standard_DS3_v2、AWSの場合は i3.xlarge など)が表示。
- 本コースでは、通常デフォルトの選択で問題なし;
- より高度なデータサイエンスを行う場合は15GB以上のメモリが必要だが、基本的なSQLやPythonであれば最小構成で十分な場合が多い。
ステップ5: 最重要ステップ - 自動終了
**「非アクティブ状態が___分続いた場合に終了」**というチェックボックスを探します。
- これを20分に設定します。
- 前の章で説明した通り、これは安全策です。作業を終えてノートパソコンを閉じてもクラスタの停止を忘れた場合、Databricksはコードが実行されていないことを検知し、20分後に自動的に「エンジン」を停止して課金を止めます。
ステップ6: 作成と待機
Create Computeをクリックします。クラスタ名の横に回転する塗りつぶしの円が表示されます。クラウドプロバイダーがサーバーを「ウォームアップ」するのに通常3~5分かかります。円が緑色のチェックマークまたは緑色の「Running」ステータスに変われば、エンジンの準備が完了です。
1. Databricksで新しいコンピュートリソース(クラスタ)を作成するメニューに正しくアクセスする方法はどれですか?
2. このコースで最初のDatabricksクラスターをセットアップする際、なぜマルチノードクラスターではなくシングルノードクラスターを選択するべきですか?
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください