Résumé
En résumé, vous avez étudié quatre algorithmes : k-NN, Régression Logistique, Arbre de Décision et Forêt Aléatoire. Chacun présente ses propres avantages et inconvénients, qui ont été abordés à la fin de leurs sections respectives.
La visualisation suivante illustre la performance de chaque algorithme sur divers jeux de données synthétiques :
Ici, plus la couleur est intense, plus le modèle est confiant dans ses prédictions.
Vous remarquerez que chaque jeu de données possède un modèle différent qui offre les meilleures performances. Il est difficile de savoir à l'avance quel modèle sera le plus efficace, il est donc préférable d'en essayer plusieurs. C'est le principe du théorème du No Free Lunch.
Cependant, dans certaines situations, la compréhension des algorithmes permet de écarter certains modèles à l'avance s'ils ne sont pas adaptés à la tâche.
Par exemple, c'est le cas de la Régression Logistique (sans utiliser PolynomialFeatures), qui crée une frontière de décision linéaire. Ainsi, en observant la complexité du second jeu de données sur l'image, on pouvait prédire à l'avance que ce modèle ne serait pas performant.
Autre exemple, si la tâche nécessite une vitesse de prédiction extrêmement rapide — comme pour des prédictions en temps réel dans une application — alors k-NN est un mauvais choix. Il en va de même pour une Forêt Aléatoire avec de nombreux Arbres de Décision. Il est possible de réduire le nombre d'arbres via le paramètre n_estimators pour améliorer la vitesse, mais cela peut entraîner une baisse de performance.
Le tableau suivant permet de comprendre les prétraitements nécessaires avant l'entraînement de chaque modèle, ainsi que l'impact sur la performance lorsque le nombre de caractéristiques ou d'instances augmente :
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion
Awesome!
Completion rate improved to 4.17
Résumé
Glissez pour afficher le menu
En résumé, vous avez étudié quatre algorithmes : k-NN, Régression Logistique, Arbre de Décision et Forêt Aléatoire. Chacun présente ses propres avantages et inconvénients, qui ont été abordés à la fin de leurs sections respectives.
La visualisation suivante illustre la performance de chaque algorithme sur divers jeux de données synthétiques :
Ici, plus la couleur est intense, plus le modèle est confiant dans ses prédictions.
Vous remarquerez que chaque jeu de données possède un modèle différent qui offre les meilleures performances. Il est difficile de savoir à l'avance quel modèle sera le plus efficace, il est donc préférable d'en essayer plusieurs. C'est le principe du théorème du No Free Lunch.
Cependant, dans certaines situations, la compréhension des algorithmes permet de écarter certains modèles à l'avance s'ils ne sont pas adaptés à la tâche.
Par exemple, c'est le cas de la Régression Logistique (sans utiliser PolynomialFeatures), qui crée une frontière de décision linéaire. Ainsi, en observant la complexité du second jeu de données sur l'image, on pouvait prédire à l'avance que ce modèle ne serait pas performant.
Autre exemple, si la tâche nécessite une vitesse de prédiction extrêmement rapide — comme pour des prédictions en temps réel dans une application — alors k-NN est un mauvais choix. Il en va de même pour une Forêt Aléatoire avec de nombreux Arbres de Décision. Il est possible de réduire le nombre d'arbres via le paramètre n_estimators pour améliorer la vitesse, mais cela peut entraîner une baisse de performance.
Le tableau suivant permet de comprendre les prétraitements nécessaires avant l'entraînement de chaque modèle, ainsi que l'impact sur la performance lorsque le nombre de caractéristiques ou d'instances augmente :
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Merci pour vos commentaires !