Udfordring: Implementering af en Random Forest
I sklearn implementeres klassifikationsversionen af Random Forest ved hjælp af RandomForestClassifier:
Du vil også beregne krydsvalideringsnøjagtigheden ved hjælp af funktionen cross_val_score():
Til sidst udskrives vigtigheden af hver feature. Attributten feature_importances_ returnerer et array med vigtighedsscorer – disse scorer repræsenterer, hvor meget hver feature har bidraget til at reducere Gini-impuritet på tværs af alle beslutningsnoder, hvor denne feature blev brugt. Med andre ord, jo mere en feature hjælper med at opdele dataene på en nyttig måde, desto højere er dens vigtighed.
Dog giver attributten kun scorerne uden featurenavne. For at vise begge kan du parre dem ved hjælp af Pythons zip()-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dette udskriver hvert featurenavn sammen med dets vigtighedsscore, hvilket gør det lettere at forstå, hvilke features modellen har lagt mest vægt på.
Swipe to start coding
Du har fået et Titanic-datasæt, som er gemt som en DataFrame i variablen df.
- Initialiser Random Forest-modellen, sæt
random_state=42, træn den, og gem den trænede model i variablenrandom_forest. - Beregn krydsvalideringsscorerne for den trænede model ved brug af
10fold, og gem de resulterende scorer i variablencv_scores.
Løsning
Tak for dine kommentarer!
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Can you explain how cross-validation works in this context?
How do I interpret the feature importance scores?
Can you show an example of how to use RandomForestClassifier with cross_val_score?
Awesome!
Completion rate improved to 4.17
Udfordring: Implementering af en Random Forest
Stryg for at vise menuen
I sklearn implementeres klassifikationsversionen af Random Forest ved hjælp af RandomForestClassifier:
Du vil også beregne krydsvalideringsnøjagtigheden ved hjælp af funktionen cross_val_score():
Til sidst udskrives vigtigheden af hver feature. Attributten feature_importances_ returnerer et array med vigtighedsscorer – disse scorer repræsenterer, hvor meget hver feature har bidraget til at reducere Gini-impuritet på tværs af alle beslutningsnoder, hvor denne feature blev brugt. Med andre ord, jo mere en feature hjælper med at opdele dataene på en nyttig måde, desto højere er dens vigtighed.
Dog giver attributten kun scorerne uden featurenavne. For at vise begge kan du parre dem ved hjælp af Pythons zip()-funktion:
for feature, importance in zip(X.columns, model.feature_importances_):
print(feature, importance)
Dette udskriver hvert featurenavn sammen med dets vigtighedsscore, hvilket gør det lettere at forstå, hvilke features modellen har lagt mest vægt på.
Swipe to start coding
Du har fået et Titanic-datasæt, som er gemt som en DataFrame i variablen df.
- Initialiser Random Forest-modellen, sæt
random_state=42, træn den, og gem den trænede model i variablenrandom_forest. - Beregn krydsvalideringsscorerne for den trænede model ved brug af
10fold, og gem de resulterende scorer i variablencv_scores.
Løsning
Tak for dine kommentarer!
single