single
Défi : Implémentation d'une Forêt Aléatoire
Glissez pour afficher le menu
Dans sklearn, la version classification de la Forêt Aléatoire est implémentée à l'aide de RandomForestClassifier :
Vous calculerez également la précision de la validation croisée à l'aide de la fonction cross_val_score() :
À la fin, affichage de l'importance de chaque caractéristique. L'attribut feature_importances_ renvoie un tableau de scores d'importance : ces scores représentent la contribution de chaque caractéristique à la réduction de l'impureté de Gini à travers tous les nœuds de décision où cette caractéristique a été utilisée. Autrement dit, plus une caractéristique aide à séparer les données de manière pertinente, plus son importance est élevée.
Cependant, cet attribut fournit uniquement les scores sans les noms des caractéristiques. Pour afficher les deux, il est possible de les associer à l'aide de la fonction zip() de Python :
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Cela affiche chaque nom de caractéristique avec son score d'importance, ce qui facilite la compréhension des caractéristiques sur lesquelles le modèle s'est le plus appuyé.
Glissez pour commencer à coder
Un jeu de données Titanic vous est fourni, stocké sous forme de DataFrame dans la variable df.
- Initialisation du modèle Random Forest, définition de
random_state=42, entraînement du modèle, puis stockage du modèle entraîné dans la variablerandom_forest. - Calcul des scores de validation croisée pour le modèle entraîné en utilisant
10plis, et stockage des scores obtenus dans la variablecv_scores.
Solution
Merci pour vos commentaires !
single
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion