Défi : Implémentation d'un Arbre de Décision

Dans ce défi, vous utiliserez le jeu de données Titanic, qui contient des informations sur les passagers du Titanic, notamment leur âge, leur sexe, la taille de leur famille, et plus encore. L'objectif est de prédire si un passager a survécu ou non.


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Pour implémenter l'Arbre de Décision, vous pouvez utiliser le DecisionTreeClassifier de sklearn :

Constructeur :

DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)
max_depth — profondeur maximale de l'arbre. La valeur par défaut est None ;
min_samples_leaf — nombre minimal d'observations dans une feuille. La valeur par défaut est 1 ;

Méthodes :

fit(X, y) — Ajustement sur l'ensemble d'entraînement ;
predict(X) — Prédiction de la classe pour X ;
score(X, y) — Retourne la précision pour l'ensemble X, y ;

Attributs :

feature_importances_ — Importance des variables ;
feature_names_in_ — Noms des variables vus lors de .fit().

Votre tâche consiste à construire un arbre de décision et à déterminer les meilleures valeurs pour max_depth et min_samples_leaf à l'aide d'une recherche par grille.

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 30

single

Glissez pour afficher le menu

Dans ce défi, vous utiliserez le jeu de données Titanic, qui contient des informations sur les passagers du Titanic, notamment leur âge, leur sexe, la taille de leur famille, et plus encore. L'objectif est de prédire si un passager a survécu ou non.


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Pour implémenter l'Arbre de Décision, vous pouvez utiliser le DecisionTreeClassifier de sklearn :

Constructeur :

DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)
max_depth — profondeur maximale de l'arbre. La valeur par défaut est None ;
min_samples_leaf — nombre minimal d'observations dans une feuille. La valeur par défaut est 1 ;

Méthodes :

fit(X, y) — Ajustement sur l'ensemble d'entraînement ;
predict(X) — Prédiction de la classe pour X ;
score(X, y) — Retourne la précision pour l'ensemble X, y ;

Attributs :

feature_importances_ — Importance des variables ;
feature_names_in_ — Noms des variables vus lors de .fit().

Votre tâche consiste à construire un arbre de décision et à déterminer les meilleures valeurs pour max_depth et min_samples_leaf à l'aide d'une recherche par grille.

Tâche

Glissez pour commencer à coder

Vous disposez d'un jeu de données Titanic stocké sous forme de DataFrame dans la variable df.

Initialiser un modèle d'Arbre de Décision et le stocker dans la variable decision_tree.
Créer un dictionnaire pour GridSearchCV afin d'itérer sur les valeurs [1, 2, 3, 4, 5, 6, 7] pour max_depth et [1, 2, 4, 6] pour min_samples_leaf, et le stocker dans la variable param_grid.
Initialiser et entraîner un objet GridSearchCV, définir le nombre de plis à 10, et stocker le modèle entraîné dans la variable grid_cv.

Solution

Passez à un bureau pour une pratique réelleContinuez d'où vous êtes en utilisant l'une des options ci-dessous

Tout était clair ?

Merci pour vos commentaires !

Section 1. Chapitre 30

single

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion