Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé | Comparaison des Modèles
Classification avec Python

Résumé

Glissez pour afficher le menu

En résumé, vous avez étudié quatre algorithmes : k-NN, Régression Logistique, Arbre de Décision et Forêt Aléatoire. Chacun présente ses propres avantages et inconvénients, qui ont été abordés à la fin de leurs sections respectives.

La visualisation suivante illustre la performance de chaque algorithme sur divers jeux de données synthétiques :

comparer modèles3

Ici, plus la couleur est intense, plus le modèle est confiant dans ses prédictions.

Vous remarquerez que chaque jeu de données a un modèle différent qui donne les meilleurs résultats. Il est difficile de savoir à l'avance quel modèle fonctionnera le mieux, donc la meilleure approche consiste à en essayer plusieurs. C'est le principe du théorème No Free Lunch.

Cependant, dans certaines situations, votre compréhension des algorithmes peut vous permettre d'écarter certains modèles à l'avance s'ils ne sont pas adaptés à la tâche.

Par exemple, c'est le cas de la Régression Logistique (sans utiliser PolynomialFeatures), qui crée une frontière de décision linéaire. Ainsi, en observant la complexité du deuxième jeu de données sur l'image, on pouvait prédire à l'avance qu'elle ne donnerait pas de bons résultats.

Autre exemple : si votre tâche nécessite une vitesse de prédiction extrêmement rapide — comme pour des prédictions en temps réel dans une application — alors k-NN est un mauvais choix. Il en va de même pour une Forêt Aléatoire avec de nombreux Arbres de Décision. Vous pouvez réduire le nombre d'arbres avec le paramètre n_estimators pour améliorer la vitesse, mais cela peut se faire au détriment d'une performance moindre.

Le tableau suivant peut vous aider à comprendre quel prétraitement est nécessaire avant d'entraîner chaque modèle, et comment la performance du modèle est affectée lorsque le nombre de caractéristiques ou d'instances augmente :

  • n – nombre d'instances (échantillons) ;
  • m – nombre de caractéristiques ;
  • t – nombre d'arbres dans une Forêt aléatoire ;
  • k – nombre de voisins dans k-NN ;
  • * La normalisation n'est pas requise si penalty=None dans la régression logistique ;
  • ** PolynomialFeatures ajoute plus de caractéristiques, donc le nombre effectif de caractéristiques m augmente.
question mark

Quel modèle utilise plusieurs arbres de décision pour effectuer une prédiction ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 5. Chapitre 4
some-alt