Contenu du cours
Classification Avec Python
Classification Avec Python
Qu'est-ce Que la Classification
Classification est une tâche d'apprentissage supervisé.
Son objectif est de prédire la classe à laquelle appartient l'instance en fonction d'un ensemble de paramètres(caractéristiques). Vous devez fournir de nombreux exemples de données étiquetées (appelés ensemble d'entraînement) pour que l'ordinateur puisse apprendre avant de pouvoir prédire la classe d'une nouvelle instance.
La différence entre la classification et la régression est que la régression prédit une valeur numérique continue, par exemple, un prix. Cela peut être n'importe quel nombre réel (uniquement positif pour un prix).
En revanche, la classification prédit une valeur catégorielle, par exemple, le type d'une friandise. Il existe un ensemble fini de valeurs, et le modèle essaie de classer chaque instance dans l'une de ces catégories
En fonction de la formulation d'un problème, il existe deux types de classification :
- Classification binaire : Dans la classification binaire, une cible est l'un des deux résultats possibles. Par exemple, email : spam/pas spam, friandise : cookie/pas cookie;
- Classification multi-classes : Dans la classification multi-classes, il y a trois résultats possibles ou plus pour une cible. Par exemple, email : spam/important/pub/autre, friandise : cookie/guimauve/bonbon.
Pour la plupart des modèles ML, vous devez encoder la cible en un nombre.
Pour la classification binaire, les résultats sont généralement encodés en 0/1 (par exemple, 1 – cookie, 0 – pas un cookie).
Pour une classification multi-classes, les résultats sont généralement encodés en 0, 1, 2, ... (par exemple, 0 – bonbon, 1 – cookie, 2 – guimauve)
De nombreux modèles différents effectuent la classification. Dans ce cours, nous discuterons des modèles suivants :
- k-Plus Proches Voisins (k-NN);
- Régression Logistique;
- Arbre de Décision;
- Forêt Aléatoire.
Heureusement, ils sont tous implémentés dans la bibliothèque Scikit-learn et sont faciles à utiliser.
Pourquoi y a-t-il tant de modèles ? Comme le déclare le Théorème de No Free Lunch, aucun modèle d'apprentissage automatique n'est meilleur qu'un autre. Le modèle qui donnera les meilleurs résultats dépend de la tâche spécifique.
1. Supposons que vous vouliez prédire le résultat d'un match sportif. Choisissez les relations correspondantes.
2. Lesquels des cas correspondent à une classification binaire et lesquels à une classification multiclasses ?
Merci pour vos commentaires !