Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
学ぶ 単変量解析 | セクション
データ可視化&EDA

book単変量解析

メニューを表示するにはスワイプしてください

単変量解析は、探索的データ解析(EDA)における基礎的なステップであり、データセット内の各変数を独立して調査することに重点を置いています。変数を一つずつ分析することで、中心傾向散布度分布の形状、および外れ値の存在など、重要な特徴を明らかにできます。このプロセスにより、データの基本的な特性を理解し、潜在的なデータ品質の問題を特定し、さらなる分析に適した手法を選択することが可能となります。単変量解析は、より複雑な多変量関係に進む前に、データセットに対する直感を養うために不可欠です。

123456789
import pandas as pd # Load a sample dataset url = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv" df = pd.read_csv(url) # Select a single column for analysis: "total_bill" total_bill = df["total_bill"] print(total_bill.head())
copy
1234567891011121314
# Calculate descriptive statistics for the "total_bill" variable mean = total_bill.mean() median = total_bill.median() mode = total_bill.mode()[0] std = total_bill.std() min_value = total_bill.min() max_value = total_bill.max() print(f"Mean: {mean:.2f}") print(f"Median: {median:.2f}") print(f"Mode: {mode:.2f}") print(f"Standard Deviation: {std:.2f}") print(f"Min: {min_value:.2f}") print(f"Max: {max_value:.2f}")
copy
12345678910111213141516171819
import matplotlib.pyplot as plt import seaborn as sns # Create a histogram plt.figure(figsize=(12, 5)) plt.subplot(1, 2, 1) sns.histplot(total_bill, bins=20, kde=True) plt.title("Histogram of Total Bill") plt.xlabel("Total Bill") plt.ylabel("Frequency") # Create a boxplot plt.subplot(1, 2, 2) sns.boxplot(x=total_bill) plt.title("Boxplot of Total Bill") plt.xlabel("Total Bill") plt.tight_layout() plt.show()
copy

記述統計量の解釈

  • 平均値: total_bill の平均値を示す;
  • 中央値: すべての請求額を並べたときの中央の値;
  • 最頻値: 最も頻繁に現れる請求額;
  • 標準偏差: 平均値からの値のばらつきを測定。値が大きいほどばらつきが大きい;
  • 最小値と最大値: データの範囲を示す。

平均値中央値が近い場合、分布は対称的である可能性が高い。異なる場合、データは歪んでいる可能性がある。

可視化の理解

  • ヒストグラム: total_bill の分布を表示。ピークは一般的な値を示し、全体の形状(対称、左に歪み、右に歪み)で請求額の分布傾向が分かる;
  • 箱ひげ図: データの広がり、中央値、外れ値を要約。箱は四分位範囲(データの中央50%)を示し、箱内の線は中央値、箱の「ひげ」から外れた点は外れ値と見なされる。

これらの統計量と可視化を組み合わせることで、異常値や歪み、変数の全体的な傾向を素早く把握できる。この理解がデータクリーニングや分析の次のステップを導く。

question mark

探索的データ解析における単変量解析を最もよく表す説明はどれですか?

正しい答えを選んでください

すべて明確でしたか?

どのように改善できますか?

フィードバックありがとうございます!

セクション 1.  21

AIに質問する

expand

AIに質問する

ChatGPT

何でも質問するか、提案された質問の1つを試してチャットを始めてください

セクション 1.  21
some-alt