Kursinhalt
Klassifikation mit Python
Klassifikation mit Python
5. Modelle Vergleichen
Zusammenfassung des Random Forest
Schauen wir uns die Besonderheiten des Random Forest an:
- Keine Datenvorbereitung erforderlich.
Da Random Forest eine Ansammlung von Entscheidungsbäumen ist, ist die Vorverarbeitung, die für Random Forest benötigt wird, dieselbe wie für Entscheidungsbäume, was sehr wenig ist; - Bietet Feature-Wichtigkeiten.
Genau wie der Entscheidungsbaum bietet auch Random Forest Feature-Wichtigkeiten, auf die Sie mit dem Attribut.feature_importances_
zugreifen können; - Random Forest ist relativ langsam.
Da Random Forest während des Trainings viele Entscheidungsbäume (standardmäßig 100) trainiert, kann es bei großen Datensätzen ziemlich langsam werden. Und um eine Vorhersage zu treffen, muss eine neue Instanz auch durch alle Bäume laufen, sodass Vorhersagen auch langsam werden können, wenn viele Bäume verwendet werden; - Bewältigt Datensätze mit vielen Merkmalen gut.
Dank der Merkmalssampling leidet die Trainingszeit von Random Forest nicht stark unter einer großen Anzahl von Merkmalen. Außerdem kann das Modell nutzlose Merkmale leicht ignorieren, da an jedem Entscheidungsnode ein besseres Merkmal ausgewählt wird. So verschlechtern nutzlose Merkmale das Modell nicht, es sei denn, es gibt zu viele davon; - Geeignet für komplexe Aufgaben.
Ein Entscheidungsbaum kann komplexe Entscheidungsgrenzen erstellen, aber sie sind nicht glatt und neigen sehr dazu, zu überanpassen. Im Gegensatz dazu produziert Random Forest glattere Entscheidungsgrenzen, die besser generalisieren, sodass Random Forest viel weniger wahrscheinlich überanpasst. Und im Gegensatz zu einem einzelnen Entscheidungsbaum ist Random Forest stabil, was bedeutet, dass es sich nicht drastisch mit geringfügigen Änderungen am Datensatz oder an den Hyperparametern ändert.
Und hier ist eine kleine Zusammenfassung:
Vorteile | Nachteile |
---|---|
Kein Überanpassen | Langsam |
Bewältigt Datensätze mit vielen Merkmalen gut | Nicht interpretierbar |
Stabil | |
Keine Merkmalsskalierung erforderlich | |
Bietet Feature-Wichtigkeiten | |
Normalerweise robust gegenüber Ausreißern | |
Geeignet für komplexe Aufgaben |
War alles klar?
Danke für Ihr Feedback!
Abschnitt 4. Kapitel 4