Utmaning: Implementering av en Random Forest
I sklearn implementeras klassificeringsversionen av Random Forest med hjälp av RandomForestClassifier:
Du kommer även att beräkna korsvalideringsnoggrannheten med funktionen cross_val_score():
Till sist kommer du att skriva ut vikten för varje variabel. Attributet feature_importances_ returnerar en array med viktsiffror – dessa siffror visar hur mycket varje variabel bidrog till att minska Gini-orenheten över alla beslutsknutar där den variabeln användes. Med andra ord, ju mer en variabel hjälper till att dela upp datan på ett användbart sätt, desto högre blir dess vikt.
Attributet ger dock endast siffror utan variabelnamn. För att visa båda kan du para ihop dem med Pythons zip()-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Detta skriver ut varje variabelnamn tillsammans med dess viktsiffra, vilket gör det enklare att förstå vilka variabler modellen förlitade sig mest på.
Swipe to start coding
Du har fått en Titanic-dataset lagrad som en DataFrame i variabeln df.
- Initiera Random Forest-modellen, sätt
random_state=42, träna den och spara den tränade modellen i variabelnrandom_forest. - Beräkna korsvalideringspoängen för den tränade modellen med hjälp av
10vikningar och spara de resulterande poängen i variabelncv_scores.
Lösning
Tack för dina kommentarer!
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal
Awesome!
Completion rate improved to 4.17
Utmaning: Implementering av en Random Forest
Svep för att visa menyn
I sklearn implementeras klassificeringsversionen av Random Forest med hjälp av RandomForestClassifier:
Du kommer även att beräkna korsvalideringsnoggrannheten med funktionen cross_val_score():
Till sist kommer du att skriva ut vikten för varje variabel. Attributet feature_importances_ returnerar en array med viktsiffror – dessa siffror visar hur mycket varje variabel bidrog till att minska Gini-orenheten över alla beslutsknutar där den variabeln användes. Med andra ord, ju mer en variabel hjälper till att dela upp datan på ett användbart sätt, desto högre blir dess vikt.
Attributet ger dock endast siffror utan variabelnamn. För att visa båda kan du para ihop dem med Pythons zip()-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Detta skriver ut varje variabelnamn tillsammans med dess viktsiffra, vilket gör det enklare att förstå vilka variabler modellen förlitade sig mest på.
Swipe to start coding
Du har fått en Titanic-dataset lagrad som en DataFrame i variabeln df.
- Initiera Random Forest-modellen, sätt
random_state=42, träna den och spara den tränade modellen i variabelnrandom_forest. - Beräkna korsvalideringspoängen för den tränade modellen med hjälp av
10vikningar och spara de resulterande poängen i variabelncv_scores.
Lösning
Tack för dina kommentarer!
single