Summary  
This chapter explains how to identify and remove duplicate rows in a dataset using pandas DataFrame methods to ensure data integrity.

General domain of usage  
Data cleaning for data analysis

重複データは、実際のデータセットでよく見られる問題。**重複**は、手動でのデータ入力ミス、複数のソースからのデータセット統合、またはシステムの不具合によるレコードの繰り返しなど、さまざまな理由で発生。重複行が存在すると、集計値の水増し、統計サマリーの偏り、不正確な結論につながり、分析結果が歪められる可能性がある。重複の削除は、データに基づく洞察の正確性と信頼性を確保するための重要なステップ。

import pandas as pd

# Sample DataFrame with duplicate rows
data = {
    "name": ["Alice", "Bob", "Alice", "David", "Bob"],
    "age": [25, 30, 25, 22, 30],
    "city": ["New York", "Paris", "New York", "London", "Paris"]
}
df = pd.DataFrame(data)

# Identify duplicate rows
duplicates = df.duplicated()
print("Duplicated rows:")
print(duplicates)

# Remove duplicate rows
df_no_duplicates = df.drop_duplicates()
print("\nDataFrame after removing duplicates:")
print(df_no_duplicates)

duplicated() メソッドは何を返すか？

drop_duplicates() はデフォルトで元の DataFrame にどのような影響を与えますか？

強力なライブラリと実践的な課題を用いて、Pythonでのデータクリーニングの基本技術を習得します。本コースは、中級レベルのPythonスキルを持ち、分析や機械学習のために効率的にデータを準備・クリーニングしたい学習者向けに設計されています。

データクリーニングの基本概念、その重要性、そしてPythonにおける主要なツールと手法を学びます。

pandasとnumpyを使用した欠損データおよび重複データの管理手法についてさらに深く学びます。

データの一貫性を確保し、エラーを修正し、外れ値を検出するための手法に焦点を当てます。

重複データの管理

1. duplicated() メソッドは何を返すか？

2. drop_duplicates() はデフォルトで元の DataFrame にどのような影響を与えますか？