Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Zusammenfassung | Modelle Vergleichen
Klassifikation mit Python

bookZusammenfassung

Zusammenfassend haben Sie vier Algorithmen kennengelernt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder dieser Algorithmen hat eigene Vor- und Nachteile, die am Ende der jeweiligen Abschnitte erläutert wurden.

Die folgende Visualisierung zeigt, wie jeder Algorithmus auf verschiedenen synthetischen Datensätzen abschneidet:

Hier gilt: Je intensiver die Farbe, desto größer ist das Vertrauen des Modells in seine Vorhersagen.

Es fällt auf, dass für jeden Datensatz ein anderes Modell am besten abschneidet. Es ist schwierig, im Voraus zu wissen, welches Modell besser funktioniert, daher ist es am sinnvollsten, mehrere Modelle auszuprobieren. Das ist die Idee hinter dem No Free Lunch Theorem.

In bestimmten Situationen kann jedoch das Verständnis der Algorithmen helfen, bestimmte Modelle im Vorfeld auszuschließen, wenn sie für die Aufgabe nicht geeignet sind.

Dies ist beispielsweise bei der Logistischen Regression (ohne Verwendung von PolynomialFeatures) der Fall, da bekannt ist, dass sie eine lineare Entscheidungsgrenze erzeugt. Betrachtet man die Komplexität des zweiten Datensatzes im Bild, könnte man bereits im Voraus vorhersagen, dass sie dort nicht gut abschneiden wird.

Ein weiteres Beispiel: Wenn für Ihre Aufgabe eine extrem schnelle Vorhersagegeschwindigkeit erforderlich ist – etwa für Echtzeit-Vorhersagen in einer App – ist k-NN eine ungeeignete Wahl. Gleiches gilt für einen Random Forest mit vielen Entscheidungsbäumen. Die Anzahl der Bäume kann mit dem Parameter n_estimators reduziert werden, um die Geschwindigkeit zu erhöhen, was jedoch zu geringerer Leistung führen kann.

Die folgende Tabelle hilft dabei zu verstehen, welche Vorverarbeitung vor dem Training der einzelnen Modelle erforderlich ist und wie sich die Modellleistung mit zunehmender Anzahl an Merkmalen oder Instanzen verändert:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Welches Modell verwendet mehrere Entscheidungsbäume, um eine Vorhersage zu treffen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 4.17

bookZusammenfassung

Swipe um das Menü anzuzeigen

Zusammenfassend haben Sie vier Algorithmen kennengelernt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder dieser Algorithmen hat eigene Vor- und Nachteile, die am Ende der jeweiligen Abschnitte erläutert wurden.

Die folgende Visualisierung zeigt, wie jeder Algorithmus auf verschiedenen synthetischen Datensätzen abschneidet:

Hier gilt: Je intensiver die Farbe, desto größer ist das Vertrauen des Modells in seine Vorhersagen.

Es fällt auf, dass für jeden Datensatz ein anderes Modell am besten abschneidet. Es ist schwierig, im Voraus zu wissen, welches Modell besser funktioniert, daher ist es am sinnvollsten, mehrere Modelle auszuprobieren. Das ist die Idee hinter dem No Free Lunch Theorem.

In bestimmten Situationen kann jedoch das Verständnis der Algorithmen helfen, bestimmte Modelle im Vorfeld auszuschließen, wenn sie für die Aufgabe nicht geeignet sind.

Dies ist beispielsweise bei der Logistischen Regression (ohne Verwendung von PolynomialFeatures) der Fall, da bekannt ist, dass sie eine lineare Entscheidungsgrenze erzeugt. Betrachtet man die Komplexität des zweiten Datensatzes im Bild, könnte man bereits im Voraus vorhersagen, dass sie dort nicht gut abschneiden wird.

Ein weiteres Beispiel: Wenn für Ihre Aufgabe eine extrem schnelle Vorhersagegeschwindigkeit erforderlich ist – etwa für Echtzeit-Vorhersagen in einer App – ist k-NN eine ungeeignete Wahl. Gleiches gilt für einen Random Forest mit vielen Entscheidungsbäumen. Die Anzahl der Bäume kann mit dem Parameter n_estimators reduziert werden, um die Geschwindigkeit zu erhöhen, was jedoch zu geringerer Leistung führen kann.

Die folgende Tabelle hilft dabei zu verstehen, welche Vorverarbeitung vor dem Training der einzelnen Modelle erforderlich ist und wie sich die Modellleistung mit zunehmender Anzahl an Merkmalen oder Instanzen verändert:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

Welches Modell verwendet mehrere Entscheidungsbäume, um eine Vorhersage zu treffen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 5. Kapitel 4
some-alt