Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Résumé | Comparaison des Modèles
Classification avec Python

bookRésumé

En résumé, vous avez étudié quatre algorithmes : k-NN, Régression Logistique, Arbre de Décision et Forêt Aléatoire. Chacun présente ses propres avantages et inconvénients, qui ont été abordés à la fin de leurs sections respectives.

La visualisation suivante illustre la performance de chaque algorithme sur divers jeux de données synthétiques :

Ici, plus la couleur est intense, plus le modèle est confiant dans ses prédictions.

Vous remarquerez que chaque jeu de données possède un modèle différent qui offre les meilleures performances. Il est difficile de savoir à l'avance quel modèle sera le plus efficace, il est donc préférable d'en essayer plusieurs. C'est le principe du théorème du No Free Lunch.

Cependant, dans certaines situations, la compréhension des algorithmes permet de écarter certains modèles à l'avance s'ils ne sont pas adaptés à la tâche.

Par exemple, c'est le cas de la Régression Logistique (sans utiliser PolynomialFeatures), qui crée une frontière de décision linéaire. Ainsi, en observant la complexité du second jeu de données sur l'image, on pouvait prédire à l'avance que ce modèle ne serait pas performant.

Autre exemple, si la tâche nécessite une vitesse de prédiction extrêmement rapide — comme pour des prédictions en temps réel dans une application — alors k-NN est un mauvais choix. Il en va de même pour une Forêt Aléatoire avec de nombreux Arbres de Décision. Il est possible de réduire le nombre d'arbres via le paramètre n_estimators pour améliorer la vitesse, mais cela peut entraîner une baisse de performance.

Le tableau suivant permet de comprendre les prétraitements nécessaires avant l'entraînement de chaque modèle, ainsi que l'impact sur la performance lorsque le nombre de caractéristiques ou d'instances augmente :

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Quel modèle utilise plusieurs arbres de décision pour effectuer une prédiction ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Awesome!

Completion rate improved to 4.17

bookRésumé

Glissez pour afficher le menu

En résumé, vous avez étudié quatre algorithmes : k-NN, Régression Logistique, Arbre de Décision et Forêt Aléatoire. Chacun présente ses propres avantages et inconvénients, qui ont été abordés à la fin de leurs sections respectives.

La visualisation suivante illustre la performance de chaque algorithme sur divers jeux de données synthétiques :

Ici, plus la couleur est intense, plus le modèle est confiant dans ses prédictions.

Vous remarquerez que chaque jeu de données possède un modèle différent qui offre les meilleures performances. Il est difficile de savoir à l'avance quel modèle sera le plus efficace, il est donc préférable d'en essayer plusieurs. C'est le principe du théorème du No Free Lunch.

Cependant, dans certaines situations, la compréhension des algorithmes permet de écarter certains modèles à l'avance s'ils ne sont pas adaptés à la tâche.

Par exemple, c'est le cas de la Régression Logistique (sans utiliser PolynomialFeatures), qui crée une frontière de décision linéaire. Ainsi, en observant la complexité du second jeu de données sur l'image, on pouvait prédire à l'avance que ce modèle ne serait pas performant.

Autre exemple, si la tâche nécessite une vitesse de prédiction extrêmement rapide — comme pour des prédictions en temps réel dans une application — alors k-NN est un mauvais choix. Il en va de même pour une Forêt Aléatoire avec de nombreux Arbres de Décision. Il est possible de réduire le nombre d'arbres via le paramètre n_estimators pour améliorer la vitesse, mais cela peut entraîner une baisse de performance.

Le tableau suivant permet de comprendre les prétraitements nécessaires avant l'entraînement de chaque modèle, ainsi que l'impact sur la performance lorsque le nombre de caractéristiques ou d'instances augmente :

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Quel modèle utilise plusieurs arbres de décision pour effectuer une prédiction ?

Select the correct answer

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 4
some-alt