Contenu du cours
Classification Avec Python
Classification Avec Python
Défi : Comparaison des Modèles
Maintenant, nous allons comparer les modèles que nous avons appris sur un ensemble de données. Il s'agit d'un ensemble de données sur le cancer du sein. La cible est la colonne 'diagnosis'
(1 – malin, 0 – bénin).
Nous appliquerons GridSearchCV
à chaque modèle pour trouver les meilleurs paramètres. De plus, dans cette tâche, nous utiliserons la métrique recall pour l'évaluation car nous ne voulons pas avoir de faux négatifs. GridSearchCV
peut choisir les paramètres en fonction de la métrique recall si vous définissez scoring='recall'
.
Swipe to start coding
La tâche consiste à construire tous les modèles que nous avons appris et à imprimer les meilleurs paramètres ainsi que le meilleur score de rappel de chaque modèle. Vous devrez remplir les noms de paramètres dans les dictionnaires param_grid
.
- Pour le modèle k-NN, trouvez la meilleure valeur de
n_neighbors
parmi[3, 5, 7, 12]
. - Pour la Régression Logistique, testez les valeurs
[0.1, 1, 10]
deC
. - Pour un Arbre de Décision, nous voulons configurer deux paramètres,
max_depth
etmin_samples_leaf
. Testez les valeurs[2, 4, 6, 10]
pourmax_depth
et[1, 2, 4, 7]
pourmin_samples_leaf
. - Pour une Forêt Aléatoire, trouvez la meilleure valeur de
max_depth
(profondeur maximale de chaque Arbre) parmi[2, 4, 6]
et le meilleur nombre d'arbres (n_estimators
). Essayez les valeurs[20, 50, 100]
pour le nombre d'arbres.
Solution
Note
Le code prend un certain temps à s'exécuter (moins d'une minute).
Merci pour vos commentaires !
Défi : Comparaison des Modèles
Maintenant, nous allons comparer les modèles que nous avons appris sur un ensemble de données. Il s'agit d'un ensemble de données sur le cancer du sein. La cible est la colonne 'diagnosis'
(1 – malin, 0 – bénin).
Nous appliquerons GridSearchCV
à chaque modèle pour trouver les meilleurs paramètres. De plus, dans cette tâche, nous utiliserons la métrique recall pour l'évaluation car nous ne voulons pas avoir de faux négatifs. GridSearchCV
peut choisir les paramètres en fonction de la métrique recall si vous définissez scoring='recall'
.
Swipe to start coding
La tâche consiste à construire tous les modèles que nous avons appris et à imprimer les meilleurs paramètres ainsi que le meilleur score de rappel de chaque modèle. Vous devrez remplir les noms de paramètres dans les dictionnaires param_grid
.
- Pour le modèle k-NN, trouvez la meilleure valeur de
n_neighbors
parmi[3, 5, 7, 12]
. - Pour la Régression Logistique, testez les valeurs
[0.1, 1, 10]
deC
. - Pour un Arbre de Décision, nous voulons configurer deux paramètres,
max_depth
etmin_samples_leaf
. Testez les valeurs[2, 4, 6, 10]
pourmax_depth
et[1, 2, 4, 7]
pourmin_samples_leaf
. - Pour une Forêt Aléatoire, trouvez la meilleure valeur de
max_depth
(profondeur maximale de chaque Arbre) parmi[2, 4, 6]
et le meilleur nombre d'arbres (n_estimators
). Essayez les valeurs[20, 50, 100]
pour le nombre d'arbres.
Solution
Note
Le code prend un certain temps à s'exécuter (moins d'une minute).
Merci pour vos commentaires !