Zusammenfassung
Zusammenfassend haben Sie vier Algorithmen kennengelernt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder dieser Algorithmen hat eigene Vor- und Nachteile, die am Ende der jeweiligen Abschnitte erläutert wurden.
Die folgende Visualisierung zeigt, wie jeder Algorithmus auf verschiedenen synthetischen Datensätzen abschneidet:
Hier gilt: Je intensiver die Farbe, desto größer ist das Vertrauen des Modells in seine Vorhersagen.
Es fällt auf, dass für jeden Datensatz ein anderes Modell am besten abschneidet. Es ist schwierig, im Voraus zu wissen, welches Modell besser funktioniert, daher ist es am sinnvollsten, mehrere Modelle auszuprobieren. Das ist die Idee hinter dem No Free Lunch Theorem.
In bestimmten Situationen kann jedoch das Verständnis der Algorithmen helfen, bestimmte Modelle im Vorfeld auszuschließen, wenn sie für die Aufgabe nicht geeignet sind.
Dies ist beispielsweise bei der Logistischen Regression (ohne Verwendung von PolynomialFeatures) der Fall, da bekannt ist, dass sie eine lineare Entscheidungsgrenze erzeugt. Betrachtet man die Komplexität des zweiten Datensatzes im Bild, könnte man bereits im Voraus vorhersagen, dass sie dort nicht gut abschneiden wird.
Ein weiteres Beispiel: Wenn für Ihre Aufgabe eine extrem schnelle Vorhersagegeschwindigkeit erforderlich ist – etwa für Echtzeit-Vorhersagen in einer App – ist k-NN eine ungeeignete Wahl. Gleiches gilt für einen Random Forest mit vielen Entscheidungsbäumen. Die Anzahl der Bäume kann mit dem Parameter n_estimators reduziert werden, um die Geschwindigkeit zu erhöhen, was jedoch zu geringerer Leistung führen kann.
Die folgende Tabelle hilft dabei zu verstehen, welche Vorverarbeitung vor dem Training der einzelnen Modelle erforderlich ist und wie sich die Modellleistung mit zunehmender Anzahl an Merkmalen oder Instanzen verändert:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4.17
Zusammenfassung
Swipe um das Menü anzuzeigen
Zusammenfassend haben Sie vier Algorithmen kennengelernt: k-NN, Logistische Regression, Entscheidungsbaum und Random Forest. Jeder dieser Algorithmen hat eigene Vor- und Nachteile, die am Ende der jeweiligen Abschnitte erläutert wurden.
Die folgende Visualisierung zeigt, wie jeder Algorithmus auf verschiedenen synthetischen Datensätzen abschneidet:
Hier gilt: Je intensiver die Farbe, desto größer ist das Vertrauen des Modells in seine Vorhersagen.
Es fällt auf, dass für jeden Datensatz ein anderes Modell am besten abschneidet. Es ist schwierig, im Voraus zu wissen, welches Modell besser funktioniert, daher ist es am sinnvollsten, mehrere Modelle auszuprobieren. Das ist die Idee hinter dem No Free Lunch Theorem.
In bestimmten Situationen kann jedoch das Verständnis der Algorithmen helfen, bestimmte Modelle im Vorfeld auszuschließen, wenn sie für die Aufgabe nicht geeignet sind.
Dies ist beispielsweise bei der Logistischen Regression (ohne Verwendung von PolynomialFeatures) der Fall, da bekannt ist, dass sie eine lineare Entscheidungsgrenze erzeugt. Betrachtet man die Komplexität des zweiten Datensatzes im Bild, könnte man bereits im Voraus vorhersagen, dass sie dort nicht gut abschneiden wird.
Ein weiteres Beispiel: Wenn für Ihre Aufgabe eine extrem schnelle Vorhersagegeschwindigkeit erforderlich ist – etwa für Echtzeit-Vorhersagen in einer App – ist k-NN eine ungeeignete Wahl. Gleiches gilt für einen Random Forest mit vielen Entscheidungsbäumen. Die Anzahl der Bäume kann mit dem Parameter n_estimators reduziert werden, um die Geschwindigkeit zu erhöhen, was jedoch zu geringerer Leistung führen kann.
Die folgende Tabelle hilft dabei zu verstehen, welche Vorverarbeitung vor dem Training der einzelnen Modelle erforderlich ist und wie sich die Modellleistung mit zunehmender Anzahl an Merkmalen oder Instanzen verändert:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Danke für Ihr Feedback!