Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 基本的なDataFrameの探索 | データ操作
Databricks基礎:初心者ガイド

基本的なDataFrameの探索

メニューを表示するにはスワイプしてください

Note
定義

DataFrameの探索は、DataFrameの構造、データ型、および内容を確認するプロセス。printSchema()display()などのコマンドは、分析を始める前にデータが正しく読み込まれているかを検証するための主要なツール。

データをDataFrameに読み込んだ後、そのまま完璧だと仮定することはできません。扱うデータを理解するために確認が必要です。本章では、sales_records DataFrameの内部構造を確認するために、2つの基本的なPythonコマンドを使用します。

構造の確認: printSchema()

データプロフェッショナルが新しいDataFrameで最初に行うのは、スキーマの確認。スキーマはデータの設計図であり、各カラムの名前と保持しているデータ型(Integer、String、Doubleなど)を示します。

新しいセルで次を実行:

df.printSchema()

出力はツリー形式のリストとなります。ここで「Total_Revenue」が数値型(double など)であること、単なるテキストではないことを確認します。数値であるべきカラムが string として表示されている場合は、計算を行う前にデータ型を修正する必要があります。

内容の確認: display()

printSchema() が構造を表示するのに対し、display() は実際のデータを表示します。セクション3で説明したように、display() はDatabricks特有の強力な関数です。

次のコマンドを実行します:

display(df)

このコマンドは、DataFrame の最初の 10,000 行をインタラクティブなグリッドで表示します。これにより、欠損値(null と表示)や「Region」や「Item_Type」列の書式不統一など、「汚れた」データを確認できます。

クイック統計: describe() と summary()

複雑なクエリを書くことなく、列の「数値情報」を確認したい場合は、describe() コマンドを使用できます。

display(df.describe())

これにより、すべての数値列に対して件数、平均、標準偏差、最小値、最大値を示すテーブルが表示されます。外れ値を確認する最も迅速な方法です。たとえば、「Min」価格が負の数であれば、元データに誤りがあることがわかります。

行数のカウント: count()

データセットの規模を把握するには、count()メソッドを使用します。

print(df.count())

これにより、行の総数を表す単一の整数が返されます。データの読み込み過程でデータが失われていないことを確認する際に有用です。

列名の表示

最後に、列名のリストをすぐに取得して他の関数にコピー&ペーストしたい場合は、次の方法を使用します。

print(df.columns)

これはすべてのヘッダーを含むシンプルなPythonリストを返します。DataFrameに多数のカラムがあり、正確なスペルを思い出せない場合に非常に便利です。

1. DataFrameの「設計図」、すべてのカラム名とデータ型を確認するにはどのコマンドを使用しますか?

2. display(df.describe()) を実行する目的は何か?

question mark

DataFrameの「設計図」、すべてのカラム名とデータ型を確認するにはどのコマンドを使用しますか?

正しい答えを選んでください

question mark

display(df.describe()) を実行する目的は何か?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 4.  3

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 4.  3
some-alt