Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Was ist Random Forest | Random Forest
Klassifikation mit Python

Was ist Random Forest

Swipe um das Menü anzuzeigen

Random Forest ist ein Algorithmus, der häufig bei Klassifikations- und Regressionsproblemen eingesetzt wird. Er erstellt viele verschiedene Entscheidungsbäume und verwendet deren Mehrheitsentscheidung für die Klassifikation bzw. den Durchschnitt im Fall der Regression.

Waldfisch

Anstatt nur einen einzelnen besten Baum zu verwenden, erstellt Random Forest viele „schwächere“ Bäume. Das klingt vielleicht kontraintuitiv – warum sollte man Modelle verwenden, die schlechter sind?

Man kann es sich so vorstellen: Ein einzelner Entscheidungsbaum ist wie ein Generalist – er versucht, alle Merkmale zu berücksichtigen und ein vollständiges Bild zu liefern. Allerdings kann er dabei zu selbstsicher werden und Fehler machen, indem er zu stark auf Störungen in den Daten reagiert (Overfitting).

Ein Random Forest hingegen ist wie ein Team von Spezialisten. Jeder Baum wird mit unterschiedlichen Teilen der Daten trainiert und konzentriert sich auf verschiedene Aspekte des Problems. Für sich genommen ist jeder Baum vielleicht nicht sehr stark – er könnte sogar das große Ganze übersehen. Doch gemeinsam, wenn man ihre „Stimmen“ kombiniert, gleichen sie gegenseitig ihre Schwächen aus und liefern eine ausgewogenere, genauere Vorhersage.

Man kann es auch damit vergleichen, 100 kompetente Studierende zu befragen, anstatt sich auf einen einzelnen Professor zu verlassen. Auch wenn der Professor mehr Wissen hat, können selbst Experten voreingenommen oder fehlgeleitet sein. Wenn jedoch die Mehrheit der Studierenden unabhängig voneinander zur gleichen Antwort kommt, ist dieser Konsens oft robuster.

In der Praxis funktioniert das Kombinieren vieler schwächerer Entscheidungsbäume zu einem starken Random Forest sehr gut und übertrifft oft einen optimierten einzelnen Entscheidungsbaum bei großen Datensätzen deutlich. Die Entscheidungsgrenze eines Random Forest ist glatter und generalisiert besser auf neue Daten als die eines einzelnen Entscheidungsbaums, weshalb Random Forests weniger anfällig für Overfitting sind.

dt vs rf boundaries

Die Genauigkeit verbessert sich jedoch nicht, wenn wir viele Modelle kombinieren, die die gleichen Fehler machen. Damit dieser Ansatz wirksam ist, sollten die Modelle möglichst unterschiedlich sein, sodass sie verschiedene Fehler machen.

unterschiedlich
question mark

Der Random-Forest-Algorithmus kombiniert mehrere schwächere Entscheidungsbäume zu einem einzigen Modell, das in der Regel besser abschneidet als der beste einzelne Entscheidungsbaum. Ist diese Aussage korrekt?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 4. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 4. Kapitel 1
some-alt