single
Sfida: Implementazione di una Random Forest
Scorri per mostrare il menu
In sklearn, la versione per la classificazione della Random Forest è implementata tramite RandomForestClassifier:
Calcolerai inoltre l'accuratezza della validazione incrociata utilizzando la funzione cross_val_score():
Alla fine, stamperai l'importanza di ciascuna caratteristica. L'attributo feature_importances_ restituisce un array di punteggi di importanza: questi punteggi rappresentano quanto ogni caratteristica ha contribuito a ridurre l'impurità di Gini in tutti i nodi decisionali in cui quella caratteristica è stata utilizzata. In altre parole, più una caratteristica aiuta a suddividere i dati in modo utile, maggiore sarà la sua importanza.
Tuttavia, l'attributo fornisce solo i punteggi senza i nomi delle caratteristiche. Per visualizzarli entrambi, puoi abbinarli utilizzando la funzione zip() di Python:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Questo stampa ogni nome della caratteristica insieme al suo punteggio di importanza, facilitando la comprensione di quali caratteristiche sono state maggiormente utilizzate dal modello.
Scorri per iniziare a programmare
Ti viene fornito un dataset Titanic memorizzato come DataFrame nella variabile df.
- Inizializza il modello Random Forest, imposta
random_state=42, addestralo e memorizza il modello addestrato nella variabilerandom_forest. - Calcola gli score di cross-validation per il modello addestrato utilizzando
10fold e memorizza i risultati nella variabilecv_scores.
Soluzione
Grazie per i tuoi commenti!
single
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione