Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Warum Die Daten Skalieren? | Abschnitt
Grundlagen des Machine Learning

bookWarum Die Daten Skalieren?

Nachdem fehlende Werte behandelt und kategoriale Merkmale codiert wurden, ist der Datensatz frei von Problemen, die zu Fehlern im Modell führen könnten. Es bleibt jedoch eine weitere Herausforderung: unterschiedliche Skalen der Merkmale.

Dieses Problem führt zwar nicht zu Fehlern, wenn die aktuellen Daten dem Modell zugeführt werden, kann jedoch einige ML-Modelle erheblich beeinträchtigen.

Betrachten Sie ein Beispiel, bei dem ein Merkmal 'age' ist, das von 18 bis 50 reicht, und das zweite Merkmal 'income', das von $25,000 bis $500,000 reicht. Es ist offensichtlich, dass ein Unterschied von zehn Jahren im Alter bedeutender ist als ein Unterschied von zehn Dollar beim Einkommen.

Einige Modelle, wie zum Beispiel k-NN (welches in diesem Kurs verwendet wird), behandeln diese Unterschiede jedoch als gleich wichtig. Folglich hat die Spalte 'income' einen wesentlich größeren Einfluss auf das Modell. Daher ist es entscheidend, dass die Merkmale für k-NN ungefähr den gleichen Wertebereich aufweisen, um effektiv zu funktionieren.

Andere Modelle sind möglicherweise weniger stark von unterschiedlichen Skalen betroffen, aber das Skalieren der Daten kann die Verarbeitungsgeschwindigkeit deutlich erhöhen. Daher ist das Skalieren der Daten häufig der abschließende Schritt in der Vorverarbeitung.

Note
Hinweis

Wie oben erwähnt, ist die Skalierung der Daten in der Regel der letzte Schritt der Vorverarbeitungsphase. Das liegt daran, dass nachträgliche Änderungen an den Merkmalen nach der Skalierung dazu führen können, dass die Daten wieder unskaliert werden.

Im nächsten Kapitel werden die drei am häufigsten verwendeten Transformer zur Datenskalierung behandelt. Diese sind StandardScaler, MinMaxScaler und MaxAbsScaler.

question mark

Warum ist es wichtig, Merkmale in Machine-Learning-Modellen wie k-nearest neighbors (KNN) zu skalieren?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 14

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookWarum Die Daten Skalieren?

Swipe um das Menü anzuzeigen

Nachdem fehlende Werte behandelt und kategoriale Merkmale codiert wurden, ist der Datensatz frei von Problemen, die zu Fehlern im Modell führen könnten. Es bleibt jedoch eine weitere Herausforderung: unterschiedliche Skalen der Merkmale.

Dieses Problem führt zwar nicht zu Fehlern, wenn die aktuellen Daten dem Modell zugeführt werden, kann jedoch einige ML-Modelle erheblich beeinträchtigen.

Betrachten Sie ein Beispiel, bei dem ein Merkmal 'age' ist, das von 18 bis 50 reicht, und das zweite Merkmal 'income', das von $25,000 bis $500,000 reicht. Es ist offensichtlich, dass ein Unterschied von zehn Jahren im Alter bedeutender ist als ein Unterschied von zehn Dollar beim Einkommen.

Einige Modelle, wie zum Beispiel k-NN (welches in diesem Kurs verwendet wird), behandeln diese Unterschiede jedoch als gleich wichtig. Folglich hat die Spalte 'income' einen wesentlich größeren Einfluss auf das Modell. Daher ist es entscheidend, dass die Merkmale für k-NN ungefähr den gleichen Wertebereich aufweisen, um effektiv zu funktionieren.

Andere Modelle sind möglicherweise weniger stark von unterschiedlichen Skalen betroffen, aber das Skalieren der Daten kann die Verarbeitungsgeschwindigkeit deutlich erhöhen. Daher ist das Skalieren der Daten häufig der abschließende Schritt in der Vorverarbeitung.

Note
Hinweis

Wie oben erwähnt, ist die Skalierung der Daten in der Regel der letzte Schritt der Vorverarbeitungsphase. Das liegt daran, dass nachträgliche Änderungen an den Merkmalen nach der Skalierung dazu führen können, dass die Daten wieder unskaliert werden.

Im nächsten Kapitel werden die drei am häufigsten verwendeten Transformer zur Datenskalierung behandelt. Diese sind StandardScaler, MinMaxScaler und MaxAbsScaler.

question mark

Warum ist es wichtig, Merkmale in Machine-Learning-Modellen wie k-nearest neighbors (KNN) zu skalieren?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 14
some-alt