基本的なDataFrameの探索
メニューを表示するにはスワイプしてください
DataFrameの探索は、DataFrameの構造、データ型、および内容を確認するプロセス。printSchema()やdisplay()などのコマンドは、分析を始める前にデータが正しく読み込まれているかを検証するための主要なツール。
データをDataFrameに読み込んだ後、そのまま完璧だと仮定することはできません。扱うデータを理解するために確認が必要です。本章では、sales_records DataFrameの内部構造を確認するために、2つの基本的なPythonコマンドを使用します。
構造の確認: printSchema()
データプロフェッショナルが新しいDataFrameで最初に行うのは、スキーマの確認。スキーマはデータの設計図であり、各カラムの名前と保持しているデータ型(Integer、String、Doubleなど)を示します。
新しいセルで次を実行:
df.printSchema()
出力はツリー形式のリストとなります。ここで「Total_Revenue」が数値型(double など)であること、単なるテキストではないことを確認します。数値であるべきカラムが string として表示されている場合は、計算を行う前にデータ型を修正する必要があります。
内容の確認: display()
printSchema() が構造を表示するのに対し、display() は実際のデータを表示します。セクション3で説明したように、display() はDatabricks特有の強力な関数です。
次のコマンドを実行します:
display(df)
このコマンドは、DataFrame の最初の 10,000 行をインタラクティブなグリッドで表示します。これにより、欠損値(null と表示)や「Region」や「Item_Type」列の書式不統一など、「汚れた」データを確認できます。
クイック統計: describe() と summary()
複雑なクエリを書くことなく、列の「数値情報」を確認したい場合は、describe() コマンドを使用できます。
display(df.describe())
これにより、すべての数値列に対して件数、平均、標準偏差、最小値、最大値を示すテーブルが表示されます。外れ値を確認する最も迅速な方法です。たとえば、「Min」価格が負の数であれば、元データに誤りがあることがわかります。
行数のカウント: count()
データセットの規模を把握するには、count()メソッドを使用します。
print(df.count())
これにより、行の総数を表す単一の整数が返されます。データの読み込み過程でデータが失われていないことを確認する際に有用です。
列名の表示
最後に、列名のリストをすぐに取得して他の関数にコピー&ペーストしたい場合は、次の方法を使用します。
print(df.columns)
これはすべてのヘッダーを含むシンプルなPythonリストを返します。DataFrameに多数のカラムがあり、正確なスペルを思い出せない場合に非常に便利です。
1. DataFrameの「設計図」、すべてのカラム名とデータ型を確認するにはどのコマンドを使用しますか?
2. display(df.describe()) を実行する目的は何か?
フィードバックありがとうございます!
AIに質問する
AIに質問する
何でも質問するか、提案された質問の1つを試してチャットを始めてください