Summary  
This chapter covers how to implement code that performs chi-square tests by comparing observed and expected frequencies to evaluate variable independence or distribution fit using Python’s SciPy library.

General domain of usage  
Statistical hypothesis testing

カイ二乗検定は、**カテゴリカルデータ**を分析する仮説検定の主要な手法です。これは、観測された頻度が、特定の仮説の下で期待される頻度と有意に異なるかどうかを判断するのに役立ちます。

### カイ二乗検定を使用する場面
- **カテゴリカル変数**（データが明確なグループやカテゴリに分類されている場合）でカイ二乗検定を使用;
- 連続データや対応のある測定値には使用しません。

### カイ二乗検定の種類
- **独立性の検定**：2つのカテゴリカル変数が関連しているか独立しているかを確認;
- **適合度検定**：1つのカテゴリカル変数の分布が期待される分布と一致しているかを判定。

どちらの検定も、仮説の下での観測頻度と期待頻度を比較します。

### 例：シナリオ
たとえば、性別と新製品の好みという2つのカテゴリカル変数に関連があるかどうかを知りたいとします。データは**分割表（コンティンジェンシーテーブル）**にまとめられ、各カテゴリの組み合わせごとの頻度が示されます。カイ二乗独立性検定は、好みの分布が性別と独立しているか、または統計的に有意な関係があるかを判断するのに役立ちます。

### Pythonでカイ二乗検定を実行する方法
`scipy.stats`ライブラリの`chi2_contingency`関数を使用します。この関数は、分割表に基づいて検定統計量とp値を計算します。

import numpy as np
from scipy.stats import chi2_contingency

# Example contingency table: rows = gender, columns = product preference
#         Prefer A  Prefer B  Prefer C
# Male       20        15        25
# Female     30        25        15

table = np.array([[20, 15, 25],
                  [30, 25, 15]])

chi2, p, dof, expected = chi2_contingency(table)

print("Chi-square statistic:", chi2)
print("p-value:", p)
print("Degrees of freedom:", dof)
print("Expected frequencies:\n", expected)

カイ二乗検定に最も適したデータの種類はどれですか？

データアナリスト向けの仮説検定の基礎に特化した簡潔な初心者向けコース。仮説の立案、t検定（1標本、2標本、対応あり）、z検定、カイ二乗検定、検定の前提条件、適切な統計検定の選択方法を扱います。