Summary  
Classification is a supervised learning task that maps feature vectors to discrete categories—binary, multi-class, or multi-label—by encoding targets numerically and implementing models like k-Nearest Neighbors, logistic regression, decision trees, or random forests in code.

General domain of usage  
Email spam detection

**分類**は、インスタンスの**特徴量**を用いてそのクラスを予測する教師あり学習タスク。モデルは**訓練データセット**のラベル付き例から学習し、未知の新しいデータにクラスを割り当てる。

回帰は**連続的な数値**（例：価格）を予測し、多くの値を取ることができる。
分類は**カテゴリ値**（例：お菓子の種類）を予測し、限られたクラスの中から1つを選択する。

分類にはいくつかの種類がある：

* **二値分類（バイナリ分類）:** ターゲットが2つの可能な結果を持つ場合（スパム／非スパム、クッキー／非クッキー）;
* **多クラス分類:** 3つ以上のカテゴリが存在する場合（スパム／重要／広告／その他、クッキー／マシュマロ／キャンディ）;
* **マルチラベル分類:** 1つのインスタンスが**複数のクラスに同時に属する**場合（映画がアクション*かつ*コメディである、メールが重要*かつ*仕事関連である）。


ほとんどの機械学習モデルでは、ターゲットを数値にエンコードする必要がある。**二値分類**の場合、結果は通常0/1でエンコードされる（例：1 - cookie、0 - not a cookie）。**多クラス分類**の場合、結果は通常0, 1, 2, ...でエンコードされる（例：0 - candy、1 - cookie、2 - marshmallow）。

分類を実行できるモデルは多数存在する。例として：
- k-近傍法（k-Nearest Neighbors）;
- ロジスティック回帰（Logistic Regression）;
- 決定木（Decision Tree）;
- ランダムフォレスト（Random Forest）。

これらはすべて**scikit-learn**ライブラリで実装されており、簡単に利用できる。

どの機械学習モデルも他より優れているわけではありません。どのモデルが最も良い結果を出すかは、特定のタスクによって異なります。

注意

機械学習における分類の主な目的は何ですか？

Pythonを使用したカテゴリカルな結果を予測するための分類手法を紹介します。分類モデルの構築、トレーニング、評価、決定境界の解釈、一般的なアルゴリズムの実世界データセットへの適用に焦点を当てます。


分類とは何か