Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Zusammenfassung | Modelle Vergleichen
Klassifikation mit Python

Zusammenfassung

Swipe um das Menü anzuzeigen

Zusammenfassend wurden vier Algorithmen behandelt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder dieser Algorithmen hat eigene Vor- und Nachteile, die am Ende der jeweiligen Abschnitte erläutert wurden.

Die folgende Visualisierung zeigt, wie jeder Algorithmus auf verschiedenen synthetischen Datensätzen abschneidet:

Modelle vergleichen3

Je intensiver die Farbe, desto sicherer ist das Modell in seinen Vorhersagen.

Es fällt auf, dass für jeden Datensatz ein anderes Modell am besten abschneidet. Es ist im Voraus schwer zu wissen, welches Modell besser funktioniert, daher empfiehlt es sich, mehrere Modelle auszuprobieren. Das ist die Idee hinter dem No Free Lunch Theorem.

In bestimmten Situationen kann das Verständnis der Algorithmen jedoch helfen, bestimmte Modelle im Vorfeld auszuschließen, wenn sie für die Aufgabe nicht geeignet sind.

Ein Beispiel ist die Logistische Regression (ohne Verwendung von PolynomialFeatures), die eine lineare Entscheidungsgrenze erzeugt. Betrachtet man die Komplexität des zweiten Datensatzes im Bild, lässt sich bereits vorab vorhersagen, dass dieses Modell dort nicht gut abschneiden wird.

Ein weiteres Beispiel: Wenn für die Aufgabe eine extrem schnelle Vorhersage erforderlich ist – etwa für Echtzeit-Vorhersagen in einer App – ist k-NN eine schlechte Wahl. Gleiches gilt für einen Random Forest mit vielen Entscheidungsbäumen. Die Anzahl der Bäume kann mit dem Parameter n_estimators reduziert werden, um die Geschwindigkeit zu erhöhen, was jedoch zu geringerer Leistung führen kann.

Die folgende Tabelle zeigt, welche Vorverarbeitung vor dem Training der einzelnen Modelle erforderlich ist und wie sich die Modellleistung mit zunehmender Anzahl an Merkmalen oder Instanzen verändert:

  • n – Anzahl der Instanzen (Beispiele);
  • m – Anzahl der Merkmale;
  • t – Anzahl der Bäume in einem Random Forest;
  • k – Anzahl der Nachbarn bei k-NN;
  • * Skalierung ist nicht erforderlich, wenn penalty=None bei der logistischen Regression;
  • ** PolynomialFeatures fügt weitere Merkmale hinzu, sodass die effektive Anzahl der Merkmale m steigt.
question mark

Welches Modell verwendet mehrere Entscheidungsbäume, um eine Vorhersage zu treffen?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 5. Kapitel 4
some-alt