学ぶクラウド上のDatabricks（AWS、Azure、GCP）

メニューを表示するにはスワイプしてください

定義

Databricksは「クラウドネイティブ」プラットフォームであり、Amazon Web Services（AWS）、Microsoft Azure、Google Cloud Platform（GCP）などの主要なクラウドプロバイダーのインフラストラクチャ上で完全に動作します。

初心者がよく抱く質問のひとつは「Databricksはどこに存在しているのか？」というものです。自分のノートパソコンにインストールするソフトウェアなのか？ウェブサイトなのか？答えは、Databricksはクラウドネイティブプラットフォームであるということです。オフィスの物理サーバー上に存在するのではなく、世界最大級のクラウドプロバイダーであるAWS、Azure、Google Cloudの大規模なインフラストラクチャ上に存在しています。

「アグノスティック」の利点

従来、データツールを学ぶ場合、特定のエコシステムに縛られることが一般的でした。AWSでツールを学ぶと、Azureでは全く異なる見た目や操作感になることもありました。Databricksは「クラウドアグノスティック」である点が特徴です。会社がAzureの青いインターフェースを使っていても、AWSのオレンジ色でも、Googleのカラフルなアイコンでも、Databricksの体験はほぼ同じです。

これはキャリアにとって大きな利点です。本コースでクラスターの管理やノートブックの作成方法を学べば、そのスキルは100%他のクラウドにも応用できます。どのクラウドプロバイダーを企業が選んでも通用する、データの共通言語を習得できるのです。

Databricksがクラウドに接続する仕組み

クラウドプロバイダー（例えばAWS）を、都市全体に電気や水を供給する巨大な公共事業会社と考えてみてください。Databricksは、そのインフラに接続して高度な作業を実行する高機能なスマートホームのような存在です。Databricksは主に次の3つの目的でクラウドを利用します。

ストレージ: Databricksでデータを保存すると、実際にはクラウドプロバイダーの低コストで永続的なストレージ（AWS S3バケットやAzure Data Lake Storageなど）に格納されます。
コンピュート: クラスターを起動すると、Databricksはクラウドプロバイダーに「この計算を実行するために1時間だけ仮想サーバーを4台貸してほしい」と依頼します。
セキュリティ: クラウドのエンタープライズ向けセキュリティ機能を利用し、認可されたユーザーのみがワークスペースにアクセスできるようにします。

なぜクラウドプロバイダー独自のツールだけを使わないのか？

「すでにAzureを使っているなら、Azureの標準ツールだけで十分では？」と思うかもしれません。ここでDatabricksの効率性とシンプルさが際立ちます。クラウドプロバイダーは独自のサービスを提供していますが、それらはしばしば分断されています。データクレンジング用、機械学習用、SQLレポーティング用と、複数のツールを使い分ける必要がある場合もあります。

Databricksは統合レイヤーとして機能します。複雑なクラウドサービス群の上に位置し、それらを一元管理できるシンプルで美しいインターフェースを提供します。ネットワーク構成やサーバー設定、ソフトウェアのアップデートといった「配管作業」をDatabricksが担うため、ユーザーはデータに集中できます。

グローバル規模での展開

Databricksはこれらのクラウド上で稼働しているため、クラウドのグローバルな展開力を活用できます。たとえば、企業がヨーロッパやアジアに顧客を持つ場合、それぞれの地域にDatabricksワークスペースを設置できます。これにより「クラスター」がデータの物理的な近くで稼働し、クエリの実行速度が向上し、地域ごとのデータプライバシー法にも対応しやすくなります。

要するに、クラウドは基盤であり、Databricksはその基盤をデータプロフェッショナルが活用できるツールキットです。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 1. 章 4

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1. 章 4

クラウド上のDatabricks（AWS、Azure、GCP）

「アグノスティック」の利点

Databricksがクラウドに接続する仕組み

なぜクラウドプロバイダー独自のツールだけを使わないのか？

グローバル規模での展開

1. Databricksが「クラウド非依存」であるとはどういう意味ですか？

2. Databricksを使用する場合、実際にデータはどこに保存されますか？

3. なぜ企業は複数の分断されたクラウドツールよりもDatabricksを好むのですか？