学ぶ最初のコンピュートリソースの作成 | ワークスペースのセットアップ

メニューを表示するにはスワイプしてください

定義

コンピュートリソース（クラスター）の作成は、データタスクを実行するためにクラウド上で仮想ハードウェアをプロビジョニングする作業。学習目的では、パフォーマンスとコストのバランスを取るためにシングルノード構成を使用。

「エンジン」を起動するタイミング。この章では、最初のクラスターを作成するための具体的な手順を案内。これは、後で記述するSQLやPythonコードを実行するためのリソース。環境が正しく、かつコスト効率よく設定されるよう、手順に従うこと。

補足

Databricksでは、ワークフローに適したjob computeなど、より専門的なクラスターも作成可能。この章の目的は基本を学ぶことであり、all-purpose clusterの作成を扱うが、他のクラスターカテゴリの作成や管理にも同じ内容が適用可能。

ステップ 1: コンピュートメニューへのアクセス

左側のサイドバーで、Compute アイコンをクリック。コンピュートの概要ページに移動します。右上隅にある青い Create Compute ボタンをクリック。

ステップ 2: クラスタータイプの選択

上部に主なオプションが2つ表示されます: Multi Node と Single Node。

Single Node を選択。理由: Multi-node クラスターは大規模なエンタープライズ向けデータ用。学習用途では、Single Node クラスターの方がはるかに安価（エディションによっては無料）で、使用するデータセットには十分な性能を提供。

ステップ3：名前付けとランタイム

Name: クラスターに分かりやすい名前（例：Student_Cluster_1）を設定
Databricks Runtime Version: このドロップダウンで「エンジン」バージョンを選択。LTSと表示された最新バージョンを選択。LTSは「Long Term Support（長期サポート）」の略で、最も安定したバージョン。多くの企業が実際のプロジェクトで利用。

ステップ4：「ハードウェア」の設定

Node Type では、クラウド仮想マシンの一覧（Azureの場合は Standard_DS3_v2、AWSの場合は i3.xlarge など）が表示。

本コースでは、通常デフォルトの選択で問題なし；
より高度なデータサイエンスを行う場合は15GB以上のメモリが必要だが、基本的なSQLやPythonであれば最小構成で十分な場合が多い。

ステップ5: 最重要ステップ - 自動終了

**「非アクティブ状態が___分続いた場合に終了」**というチェックボックスを探します。

これを20分に設定します。
前の章で説明した通り、これは安全策です。作業を終えてノートパソコンを閉じてもクラスタの停止を忘れた場合、Databricksはコードが実行されていないことを検知し、20分後に自動的に「エンジン」を停止して課金を止めます。

ステップ6: 作成と待機

Create Computeをクリックします。クラスタ名の横に回転する塗りつぶしの円が表示されます。クラウドプロバイダーがサーバーを「ウォームアップ」するのに通常3～5分かかります。円が緑色のチェックマークまたは緑色の「Running」ステータスに変われば、エンジンの準備が完了です。

1. Databricksで新しいコンピュートリソース（クラスタ）を作成するメニューに正しくアクセスする方法はどれですか？

2. このコースで最初のDatabricksクラスターをセットアップする際、なぜマルチノードクラスターではなくシングルノードクラスターを選択するべきですか？

すべて明確でしたか？

フィードバックありがとうございます！

セクション 2. 章 3

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 2. 章 3