Summary  
This chapter demonstrates using pandas DataFrame and numpy functions to inspect and transform structured data, including detecting and imputing missing values and standardizing string data via vectorized operations.

General domain of usage  
Data cleaning

Pythonでデータクレンジングを始める際、特に重要なライブラリが**pandas**と**numpy**です。これらのライブラリは、データの読み込み、確認、変換を簡単かつ効率的に行えるため、広く利用されています。**pandas**は、テーブルやスプレッドシートのような構造化データを扱うために設計されており、強力な`DataFrame`や`Series`オブジェクトを提供します。pandasを使うことで、データのフィルタリング、ソート、集計、再構成が容易に行えます。**numpy**は数値演算に特化しており、数値配列を扱うための高速で柔軟なツールを提供します。pandasとnumpyを組み合わせることで、欠損値の処理、データ型の修正、現実のデータクレンジング作業でよく行われる計算処理のための強固な基盤が得られます。

import pandas as pd
import numpy as np

# Create a simple pandas DataFrame
data = {
    "name": ["Alice", "Bob", "Charlie", "David", np.nan],
    "age": [25, 30, np.nan, 22, 28],
    "score": [88.5, 92.0, 85.0, np.nan, 90.0]
}
df = pd.DataFrame(data)

# Inspect the DataFrame
print("DataFrame head:")
print(df.head())

# Check for missing values
print("\nMissing values in each column:")
print(df.isnull().sum())

# Fill missing ages with the mean age using numpy
mean_age = np.nanmean(df["age"])
df["age"] = df["age"].fillna(mean_age)
print("\nDataFrame after filling missing ages with the mean:")
print(df)

# Convert all names to lowercase using pandas string methods
df["name"] = df["name"].str.lower()
print("\nDataFrame after standardizing names to lowercase:")
print(df)

**pandas**を使うことで、データの確認、欠損値のチェック、変換処理が容易に行えることが分かります。**numpy**は、欠損値を無視して列の平均値を求めるなど、数値計算を行う際によくpandasと併用されます。これらのライブラリを組み合わせることで、データを迅速に分析やモデリングの準備ができるようになります。

DataFrame内の欠損値をチェックするためによく使われるpandas関数はどれですか？

データクリーニングにおいて、pandasとnumpyを組み合わせて使用する主な利点は何ですか？

強力なライブラリと実践的な課題を用いて、Pythonでのデータクリーニングの基本技術を習得します。本コースは、中級レベルのPythonスキルを持ち、分析や機械学習のために効率的にデータを準備・クリーニングしたい学習者向けに設計されています。

データクリーニングの基本概念、その重要性、そしてPythonにおける主要なツールと手法を学びます。

pandasとnumpyを使用した欠損データおよび重複データの管理手法についてさらに深く学びます。

データの一貫性を確保し、エラーを修正し、外れ値を検出するための手法に焦点を当てます。

データクリーニングのための基本的なPythonツール

1. DataFrame内の欠損値をチェックするためによく使われるpandas関数はどれですか？

2. データクリーニングにおいて、pandasとnumpyを組み合わせて使用する主な利点は何ですか？