Warum die Daten skalieren?
Nachdem fehlende Werte behandelt und kategoriale Merkmale codiert wurden, sind alle Probleme beseitigt, die beim Einlesen der Daten in das Modell zu einem Fehler führen würden. Es bleibt jedoch ein weiteres Problem bestehen, das bereits erwähnt wurde: unterschiedliche Skalen.
Dieses Problem verursacht zwar keine Fehler, wenn die Daten im aktuellen Zustand in das Modell eingespeist werden, kann jedoch einige ML-Modelle erheblich beeinträchtigen.
Betrachten Sie ein Beispiel, bei dem ein Merkmal 'age'
ist, das von 18 bis 50 reicht, und ein zweites Merkmal 'income'
, das von $25,000 bis $500,000 reicht. Es ist offensichtlich, dass ein Unterschied von zehn Jahren beim Alter bedeutender ist als ein Unterschied von zehn Dollar beim Einkommen.
Einige Modelle, wie zum Beispiel k-NN (welches in diesem Kurs verwendet wird), behandeln diese Unterschiede jedoch als gleich wichtig. Dadurch erhält die Spalte 'income'
einen wesentlich größeren Einfluss auf das Modell. Daher ist es für k-NN entscheidend, dass die Merkmale ungefähr denselben Wertebereich aufweisen.
Andere Modelle sind möglicherweise weniger stark von unterschiedlichen Skalen betroffen, jedoch kann das Skalieren der Daten die Verarbeitungsgeschwindigkeit deutlich erhöhen. Aus diesem Grund ist das Skalieren der Daten häufig der abschließende Schritt der Vorverarbeitung.
Das nächste Kapitel behandelt die drei am häufigsten verwendeten Transformer zur Datenskalierung. Diese sind StandardScaler
, MinMaxScaler
und MaxAbsScaler
.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Warum die Daten skalieren?
Swipe um das Menü anzuzeigen
Nachdem fehlende Werte behandelt und kategoriale Merkmale codiert wurden, sind alle Probleme beseitigt, die beim Einlesen der Daten in das Modell zu einem Fehler führen würden. Es bleibt jedoch ein weiteres Problem bestehen, das bereits erwähnt wurde: unterschiedliche Skalen.
Dieses Problem verursacht zwar keine Fehler, wenn die Daten im aktuellen Zustand in das Modell eingespeist werden, kann jedoch einige ML-Modelle erheblich beeinträchtigen.
Betrachten Sie ein Beispiel, bei dem ein Merkmal 'age'
ist, das von 18 bis 50 reicht, und ein zweites Merkmal 'income'
, das von $25,000 bis $500,000 reicht. Es ist offensichtlich, dass ein Unterschied von zehn Jahren beim Alter bedeutender ist als ein Unterschied von zehn Dollar beim Einkommen.
Einige Modelle, wie zum Beispiel k-NN (welches in diesem Kurs verwendet wird), behandeln diese Unterschiede jedoch als gleich wichtig. Dadurch erhält die Spalte 'income'
einen wesentlich größeren Einfluss auf das Modell. Daher ist es für k-NN entscheidend, dass die Merkmale ungefähr denselben Wertebereich aufweisen.
Andere Modelle sind möglicherweise weniger stark von unterschiedlichen Skalen betroffen, jedoch kann das Skalieren der Daten die Verarbeitungsgeschwindigkeit deutlich erhöhen. Aus diesem Grund ist das Skalieren der Daten häufig der abschließende Schritt der Vorverarbeitung.
Das nächste Kapitel behandelt die drei am häufigsten verwendeten Transformer zur Datenskalierung. Diese sind StandardScaler
, MinMaxScaler
und MaxAbsScaler
.
Danke für Ihr Feedback!