Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé de l'Arbre de Décision | Arbre de Décision
Classification Avec Python
course content

Contenu du cours

Classification Avec Python

Classification Avec Python

1. Classificateur K-NN
2. Régression Logistique
3. Arbre de Décision
4. Forêt Aléatoire
5. Comparer les Modèles

book
Résumé de l'Arbre de Décision

Regardons maintenant quelques-unes des particularités de l'arbre de décision.

  1. Interprétabilité.
    Contrairement à la plupart des algorithmes d'apprentissage automatique, les arbres de décision sont faciles à visualiser et à interpréter;
  2. Aucune préparation des données requise.
    L'arbre de décision nécessite peu ou pas de préparation des données. Il n'a pas besoin de mise à l'échelle/normalisation. Il peut également gérer les valeurs manquantes et ne souffre pas beaucoup des valeurs aberrantes;
  3. Fournit l'importance des caractéristiques.
    Lors de l'entraînement, un arbre de décision calcule l'importance des caractéristiques qui représentent l'impact de chaque caractéristique pour former l'arbre. Vous pouvez obtenir l'importance des caractéristiques en utilisant l'attribut .feature_importances_;
  4. Complexité computationnelle.
    Supposons que m soit le nombre de caractéristiques et n le nombre d'instances d'entraînement. La complexité de l'entraînement d'un arbre de décision est O(n·m·log(m)), donc l'entraînement est assez rapide sauf s'il y a un grand nombre de caractéristiques. De plus, la complexité de la prédiction est O(log(n)), donc les prédictions sont rapides;
  5. Pas adapté aux grands ensembles de données.
    Bien que les arbres de décision puissent bien fonctionner pour de petits ensembles, ils ne fonctionnent généralement pas bien pour les grands ensembles de données. L'utilisation de la forêt aléatoire est préférable pour les grands ensembles de données;
  6. Les arbres de décision sont instables.
    De petits changements dans les hyperparamètres ou les données peuvent entraîner un arbre très différent. Bien que ce soit un inconvénient pour un seul arbre, cela nous sera bénéfique dans une forêt aléatoire, comme vous le verrez dans la section suivante.

Et voici un petit résumé :

AvantagesInconvénients
InterprétableSurapprentissage
Entraînement rapideInstable
Prédictions rapidesPas adapté aux grands ensembles de données
Pas de mise à l'échelle des caractéristiques requise
Fournit des importances de caractéristiques
Habituellement robuste aux valeurs aberrantes

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 3. Chapitre 5
We're sorry to hear that something went wrong. What happened?
some-alt