メニューを表示するにはスワイプしてください

定義

DataFrameの探索は、DataFrameの構造、データ型、および内容を確認するプロセス。printSchema()やdisplay()などのコマンドは、分析を始める前にデータが正しく読み込まれているかを検証するための主要なツール。

データをDataFrameに読み込んだ後、そのまま完璧だと仮定することはできません。扱うデータを理解するために確認が必要です。本章では、sales_records DataFrameの内部構造を確認するために、2つの基本的なPythonコマンドを使用します。

構造の確認: printSchema()

データプロフェッショナルが新しいDataFrameで最初に行うのは、スキーマの確認。スキーマはデータの設計図であり、各カラムの名前と保持しているデータ型（Integer、String、Doubleなど）を示します。

新しいセルで次を実行:

df.printSchema()

出力はツリー形式のリストとなります。ここで「Total_Revenue」が数値型（double など）であること、単なるテキストではないことを確認します。数値であるべきカラムが string として表示されている場合は、計算を行う前にデータ型を修正する必要があります。

内容の確認: display()

printSchema() が構造を表示するのに対し、display() は実際のデータを表示します。セクション3で説明したように、display() はDatabricks特有の強力な関数です。

次のコマンドを実行します:

display(df)

このコマンドは、DataFrame の最初の 10,000 行をインタラクティブなグリッドで表示します。これにより、欠損値（null と表示）や「Region」や「Item_Type」列の書式不統一など、「汚れた」データを確認できます。

複雑なクエリを書くことなく、列の「数値情報」を確認したい場合は、describe() コマンドを使用できます。

display(df.describe())

これにより、すべての数値列に対して件数、平均、標準偏差、最小値、最大値を示すテーブルが表示されます。外れ値を確認する最も迅速な方法です。たとえば、「Min」価格が負の数であれば、元データに誤りがあることがわかります。

データセットの規模を把握するには、count()メソッドを使用します。

print(df.count())

これにより、行の総数を表す単一の整数が返されます。データの読み込み過程でデータが失われていないことを確認する際に有用です。

最後に、列名のリストをすぐに取得して他の関数にコピー＆ペーストしたい場合は、次の方法を使用します。

print(df.columns)

これはすべてのヘッダーを含むシンプルなPythonリストを返します。DataFrameに多数のカラムがあり、正確なスペルを思い出せない場合に非常に便利です。

すべて明確でしたか？

フィードバックありがとうございます！

セクション 4. 章 3

AIに質問する

何でも質問するか、提案された質問の1つを試してチャットを始めてください

定義