Summary  
This chapter explains how to compute descriptive statistics—mean, mode, and summary metrics—on tabular data using built-in methods.  

General domain of usage  
Data analysis

Get a visual walkthrough of how to use pandas methods such as mean(), mode(), and describe() to analyze your data. This video demonstrates calculating averages, finding the most common values, and summarizing key statistics in your dataset. You'll see practical examples of each method, helping you understand how to quickly extract meaningful insights from your data using pandas.

`pandas` には、各列のすべての値の**平均値**を計算する便利な `mean()` メソッドが用意されています。
```python
df = pd.read_csv(file.csv)
mean_values = df.mean()
```

同じメソッドを使用して、特定の列の平均値を求めることも可能です。
```python
df = pd.read_csv(file.csv)
mean_values = df['column_name'].mean()
```

`pandas` には、各列で**最も頻繁に出現する値**を特定する `mode()` メソッドも用意されています。
```python
df = pd.read_csv(file.csv)
mode_values = df.mode()
```

特定の列の最頻値（モード）を求めるには、同じメソッドを使用します：
```python
df = pd.read_csv(file.csv)
mode_values = df['column_name'].mode()[0]
```

複数の最頻値が存在する場合、`[0]`の後に`.mode()`を付けて最初の値を抽出します。これを付けない場合、メソッドは全体の`Series`を返します。


注意

`pandas`で便利なもう一つのメソッドは`describe()`です。
```python
df = pd.read_csv(file.csv)
important_metrics = df.describe()
```

このメソッドは、データセットから得られる**さまざまな指標の概要**を提供します。含まれる内容は以下の通りです：
- エントリーの総数
- 平均値
- 標準偏差
- 最小値と最大値
- 第25パーセンタイル、第50パーセンタイル（中央値）、第75パーセンタイル

import unittest
import importlib
import pandas as pd


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


def get_first_differing_row(expected_df, actual_df):
    expected_list = expected_df.astype(str).apply(tuple, axis=1)
    actual_list = actual_df.astype(str).apply(tuple, axis=1)

    for i, (row1, row2) in enumerate(zip(expected_list, actual_list)):
        if row1 != row2:
            return i, expected_df.iloc[i].values, actual_df.iloc[i].values

    if len(expected_df) > len(actual_df):
        return len(actual_df), expected_df.iloc[len(actual_df)].values, None
    else:
        return len(expected_df), None, actual_df.iloc[len(expected_df)].values


class TestUserCode(unittest.TestCase):

    def test_residual_sugar_mean_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'residual_sugar_mean'),
            "The `residual_sugar_mean` variable is declared.",
            "Expected `residual_sugar_mean` to be declared."
        )

    def test_residual_sugar_mean_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_value = wine_data['residual sugar'].mean()

        try:
            condition = user_code.residual_sugar_mean == expected_value
            failure_message = f"Expected `residual_sugar_mean` to be `{expected_value}`, but got `{user_code.residual_sugar_mean}`."
        except AttributeError:
            condition = False
            failure_message = "The `residual_sugar_mean` variable is not declared."

        _dynamic_test(
            self,
            condition,
            f"`residual_sugar_mean` contains the correct value.",
            failure_message
        )

    def test_fixed_acidity_mode_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'fixed_acidity_mode'),
            "The `fixed_acidity_mode` variable is declared.",
            "Expected `fixed_acidity_mode` to be declared."
        )

    def test_fixed_acidity_mode_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_value = wine_data['fixed acidity'].mode()[0]

        try:
            condition = user_code.fixed_acidity_mode == expected_value
            failure_message = f"Expected `fixed_acidity_mode` to be `{expected_value}`, but got `{user_code.fixed_acidity_mode}`."
        except AttributeError:
            condition = False
            failure_message = "The `fixed_acidity_mode` variable is not declared."

        _dynamic_test(
            self,
            condition,
            f"`fixed_acidity_mode` contains the correct value.",
            failure_message
        )

    def test_described_data_is_declared(self):
        import user_code
        _dynamic_test(
            self,
            hasattr(user_code, 'described_data'),
            "The `described_data` variable is declared.",
            "Expected `described_data` to be declared."
        )

    def test_described_data_is_dataframe(self):
        import user_code

        try:
            condition = isinstance(user_code.described_data, pd.DataFrame)
            failure_message = f"Expected `described_data` to be a `DataFrame`, but got `{type(user_code.described_data).__name__}`."
        except AttributeError:
            condition = False
            failure_message = "The `described_data` variable is not declared."

        _dynamic_test(
            self,
            condition,
            "The variable `described_data` is a `DataFrame`.",
            failure_message
        )

    def test_described_data_is_correct(self):
        import user_code

        wine_data = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a43d24b6-df61-4e11-9c90-5b36552b3437/wine.csv')
        expected_df = wine_data.describe()

        variable = 'described_data'
        actual_df = getattr(user_code, variable, None)
        condition = False
        if actual_df is None:
            failure_message = f"The `{variable}` variable is not declared."
        elif not isinstance(actual_df, pd.DataFrame):
            failure_message = f"`{variable}` is not a `DataFrame`."
        elif actual_df.empty:
            failure_message = f"`{variable}` is empty."
        elif actual_df.equals(expected_df):
            condition = True
            failure_message = None
        else:
            idx, expected_row, actual_row = get_first_differing_row(expected_df, actual_df)
            failure_message = f"Expected `{variable}` to contain `{expected_row}` at row {idx}, but got `{actual_row}`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct statistical summary.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Pandasは、データ分析のための非常にユーザーフレンドリーなライブラリです。また、DataFrameやSeriesのようなデータ構造を使用して大規模なデータセットを扱うように設計されています。これにより、データサイエンスにとって不可欠なツールとなっています。本ガイドでは、相関、最頻値、中央値、最大値および最小値の算出方法など、さまざまな統計関数について学びます。また、欠損値の処理や特定の値の操作、削除方法についても習得します。

pandasライブラリの基本を学びます。SeriesおよびDataFrameの作成と操作、その構造の探索、基本的なデータ操作の実践に自信を持つことができます。

CSVファイルおよびTXTファイルからデータを読み込み、管理する方法を習得します。pandasツールを使用してデータセットをインポートし、さらなる分析のために準備する実践的な経験を得られます。

データを効果的に探索、クリーンアップ、要約する方法を学びます。欠損値の処理方法、インサイトの抽出、pandasを用いた基本的な統計操作について理解します。

データの記述

解答