Contenu du cours
Classification Avec Python
Classification Avec Python
Fractionner les Nœuds
Pendant l'entraînement, nous devons trouver la meilleure séparation à chaque nœud de décision. Lorsque nous divisons les données en deux nœuds, nous voulons que différentes classes soient dans d'autres nœuds.
- Meilleur scénario : Tous les points de données dans un nœud sont de la même classe ;
- Pire scénario : Nombre égal de points de données pour chaque classe.
Pour mesurer la qualité d'une division, nous pouvons calculer l'Impureté de Gini.
C'est une probabilité que si nous prenons au hasard deux points d'un nœud (avec remplacement), ils seront de classes différentes. Moins cette probabilité (impureté) est élevée, meilleure est la division.
Vous pouvez calculer l'impureté de Gini pour une classification binaire en utilisant la formule suivante :
Et pour la classification multiclasses, la formule est :
Nous pouvons mesurer la qualité de la division en prenant la somme pondérée des scores de gini pour les deux nœuds obtenus à partir d'une division. C'est la valeur que nous voulons minimiser.
Pour diviser un nœud de décision, nous devons trouver une caractéristique sur laquelle diviser et le seuil.
À un nœud de décision, l'algorithme trouve de manière avide le meilleur seuil pour chaque caractéristique. Ensuite, il choisit la division avec la plus faible impureté de gini parmi toutes les caractéristiques (en cas d'égalité, il choisit au hasard).
Merci pour vos commentaires !