Summary  
The chapter covers data cleaning techniques such as handling missing values, removing duplicate records, and correcting column data types in a dataset.

General domain of usage  
Experimental data analysis

実験データを分析する前に、データセットが**クリーン**で**信頼性が高い**ことを確認する必要があります。

実験データの一般的なデータクリーニング手順には、以下が含まれます：

- **欠損値**の処理；
- **重複**の削除；
- **データ型**の修正。

これらの手順は、誤解を招く結果を防ぎ、統計的検定の妥当性を確保します。

### 欠損値

**欠損値**は、ユーザーの離脱、技術的な問題、または不完全なデータ収集によって発生することがあります。欠損値を含む行を削除するか、特定の方法で補完するかを決定する必要があります。

- 欠損値の削除は簡単ですが、多くの行が影響を受ける場合は貴重な情報を失う可能性があります；
- 欠損値の補完（インピュテーション）は、バイアスを導入しないよう慎重な検討が必要です。

### 重複

**重複**は、データ収集やデータセットの統合時のエラーによって発生することがあります。重複レコードは集計値を膨らませたり、要約統計量を歪めたりするため、分析前に削除することが重要です。

### データ型

**データ型**は、データセット内の各列に対して正しい必要があります。

- 数値列は文字列として保存しない；
- 日付列は`datetime`オブジェクトに変換する。

データ型が正しくないと、分析時にエラーが発生したり、誤った結果につながることがあります。

Pythonの`pandas`ライブラリを使用することで、これらのクリーニング手順を効率的に実施できます。

import pandas as pd

# Sample experiment data
data = {
    "user_id": [101, 102, 103, 104, 104, 105, 106],
    "group": ["control", "treatment", "control", "treatment", "treatment", None, "control"],
    "conversion": ["1", "0", None, "1", "1", "0", "1"],
    "timestamp": ["2024-06-01", "2024-06-02", "2024-06-02", "2024-06-03", "2024-06-03", "2024-06-04", "2024-06-05"]
}
df = pd.DataFrame(data)

# 1. Drop rows with missing values
df_clean = df.dropna()

# 2. Remove duplicate rows (e.g., duplicate user_id and timestamp)
df_clean = df_clean.drop_duplicates(subset=["user_id", "timestamp"])

# 3. Convert data types
df_clean["conversion"] = df_clean["conversion"].astype(int)
df_clean["timestamp"] = pd.to_datetime(df_clean["timestamp"])

print(df_clean)

分析前に実験データをクリーニングする主な理由を最もよく表している説明はどれですか？

データアナリスト向けの仮説検定の基礎に特化した簡潔な初心者向けコース。仮説の立案、t検定（1標本、2標本、対応あり）、z検定、カイ二乗検定、検定の前提条件、適切な統計検定の選択方法を扱います。

Cleaning

欠損値

重複

データ型