学ぶ結果の表示と可視化 | ノートブックエクスペリエンス

メニューを表示するにはスワイプしてください

定義

display() 関数は、データをインタラクティブ、表形式、またはグラフィカルな形式で表示するために使用されるDatabricksの組み込みコマンド。外部ライブラリを必要とせず、ノートブック内でデータセットの探索や視覚チャートの作成が可能。

Databricks では、変数名やクエリを実行するだけで生データが表示される。しかし、そのデータを読みやすく「プレゼンテーション向け」にするためには、display() コマンドを使用する。これは、生の数値を視覚的なインサイトに変換する主な方法。

display() の強力さ

Python を使用する際、print() を使うことに慣れているかもしれません。print() はテキストには適していますが、大規模なデータセットには理想的ではありません。display(your_dataframe) を使用すると、Databricks はデータをインタラクティブなテーブルとして表示します。

数千行のデータをスクロールして閲覧可能。列ヘッダーをクリックして、データを昇順または降順で並べ替え可能。結果内の組み込み検索バーを使って、特定の値を即座に検索可能:

数千行のデータをスクロールして閲覧可能;
列ヘッダーをクリックして、データを昇順または降順で並べ替え可能;
結果内の組み込み検索バーを使って、特定の値を即座に検索可能。

自動チャートの作成

display() を使ってセルを実行するか、SQL クエリを実行すると、結果テーブルが表示されます。このテーブルの直下に 「+」 アイコンが表示されます。これをクリックすると 「Visualization」 を選択できます。

これにより Visualization Editor が開きます;
棒グラフ、折れ線グラフ、エリアチャート、円グラフ、散布図など、さまざまなチャートタイプから選択可能;
X軸やY軸に使用したい列をドラッグ＆ドロップするだけで、Databricks が自動的に集計（合計や平均など）を処理します。

ビジュアルのカスタマイズ

Visualization Editor は高速な操作性を重視した設計。

色の変更: 異なるデータ系列に特定の色を割り当て;
軸ラベル: 横軸および縦軸にカスタムタイトルを追加;
データのグループ化: 「Group by」フィールドを使用し、「Region」や「Product Type」などのカテゴリごとに単一の折れ線グラフを複数の線に分割。

ノートブックへのビジュアル追加

ビジュアルを保存すると、データテーブルと並んで別タブとして表示。1つのセルに複数のビジュアルを持つことが可能。例えば、1つのタブで生の売上データ、2つ目のタブで地域別売上の棒グラフ、3つ目のタブで製品分布の円グラフを表示。ノートブックの整理が容易になり、関係者がコードを見ずにデータの「ストーリー」を把握可能。

データプロファイリング

グラフに加え、Databricks では結果エリアに 「Data Profile」 タブを提供。クリックすると、各列の値の分布、欠損数、最小/最大範囲など、データの統計サマリーを即座に表示。詳細な分析前のデータクリーニングに不可欠なステップ。

1. データセットに対して print() ではなく display() を使用する主な利点は何ですか？

2. クエリ結果からチャート作成を開始するには、どこをクリックしますか？

すべて明確でしたか？

フィードバックありがとうございます！

セクション 3. 章 6

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 3. 章 6