SQLコードの記述と実行
メニューを表示するにはスワイプしてください
SQL(Structured Query Language)は、リレーショナルデータベースと対話するための業界標準言語。Databricks では、Lakehouse 内のテーブルのクエリ、可視化の構築、ノートブック内でのデータ分析に SQL を使用。
Python はデータエンジニアリングに強力だが、SQL はデータ分析で最も一般的な言語。Databricks では SQL が第一級言語として扱われる。ノートブックのデフォルト言語が Python に設定されていても、SQL に簡単に切り替えて迅速なデータ検索や複雑な結合を実行可能。
SQL ノートブックでの SQL の使用
ノートブックを SQL をデフォルト言語として作成した場合、作成するすべてのセルは自動的に SQL セルとなる。クエリ(例:SELECT * FROM table_name)を入力して実行するだけ。出力は、列の並べ替えや特定の値の検索が追加のコードなしでできる、クリーンでインタラクティブなテーブル形式で表示。
「マジック」コマンド: %sql
Pythonノートブックで作業している場合、SQLクエリを実行するためだけに新しいファイルを作成する必要はありません。Databricksでは、「マジックコマンド」を使ってその場で言語を切り替えることができます。セルの先頭に%sqlと入力することで、そのセルをPythonとしてではなくSQLコードとしてクラスタに実行させることができます。
%sql
SELECT "Hello from the SQL engine" AS message
サンプルデータのクエリ実行
セクション2で、diamondsというファイルをアップロードしました。これを直接クエリできます。SQLセルで、次のコードを試してください。
SELECT
carat,
cut,
price
FROM
workspace.default.diamonds
LIMIT 10
命名規則に注目してください:catalog.schema.table. この3部構成の名前により、先ほど確認したカタログから正しいデータを取得できるようになります。
インタラクティブな結果と可視化
SQLセルの実行が完了すると、Databricksはインタラクティブな結果セットを提供します。結果テーブルの下に**「+」アイコンと「Visualization」**が表示されます。これにより、SQLの結果を即座に棒グラフ、折れ線グラフ、円グラフなどに変換できます。従来のSQL環境では、グラフを見るためにデータをExcelにエクスポートする必要がありましたが、Databricksでは分析と可視化を同じスペースで構築できます。
可読性向上のためのSQLフォーマット
SQLはクエリが複雑になるにつれて読みづらくなることがあります。Databricksには組み込みのSQLフォーマッターが用意されています。これはセルツールバー(小さな「魔法の杖」アイコンや「編集」メニュー内に表示されることが多い)から利用できます。クリックすることでキーワードのインデントやカラムの整列が自動で行われ、Workspace内でチームメンバーがコードを確認しやすくなります。
1. Pythonノートブックで1つのセルにSQLクエリを書きたい場合、セルの先頭に入力すべき「マジックコマンド」はどれですか?
2. Databricksで3部構成の命名規則を使ってテーブルを参照する正しい方法はどれですか?
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください