Was ist Klassifikation
Klassifikation ist eine Aufgabe des überwachten Lernens. Ziel ist es, die Klasse zu bestimmen, zu der eine Instanz anhand einer Reihe von Parametern (Merkmalen) gehört. Dafür müssen dem Computer viele gelabelte Beispieldaten (genannt Trainingsmenge) bereitgestellt werden, damit er vorhersagen kann, zu welcher Klasse eine neue Instanz gehört.
Der Unterschied zwischen Klassifikation und Regression besteht darin, dass die Regression einen kontinuierlichen numerischen Wert vorhersagt, zum Beispiel einen Preis. Dieser kann jede reelle Zahl (für einen Preis nur positive Werte) annehmen.
Im Gegensatz dazu sagt die Klassifikation einen kategorischen Wert voraus, zum Beispiel die Art einer Süßigkeit. Es gibt eine endliche Menge an Werten, und das Modell versucht, jede Instanz einer dieser Kategorien zuzuordnen.
Basierend auf der Formulierung eines Problems gibt es verschiedene Arten der Klassifikation:
-
Binäre Klassifikation: Bei der binären Klassifikation ist das Ziel eine von zwei möglichen Ausprägungen. Zum Beispiel, E-Mail: Spam/Nicht-Spam, Süßigkeit: Keks/Nicht-Keks;
-
Mehrklassenklassifikation: Bei der Mehrklassenklassifikation gibt es drei oder mehr mögliche Ausprägungen für ein Ziel. Zum Beispiel, E-Mail: Spam/Wichtig/Werbung/Andere, Süßigkeit: Keks/Marshmallow/Bonbon;
-
Mehrfachklassifikation: Bei der Mehrfachklassifikation kann jede Instanz mehreren Klassen gleichzeitig zugeordnet werden. Zum Beispiel kann ein Film sowohl als Action- als auch als Komödie klassifiziert werden, oder eine E-Mail kann sowohl als wichtig als auch als arbeitsbezogen markiert werden.
Für die meisten ML-Modelle muss das Ziel in eine Zahl codiert werden. Bei der binären Klassifikation werden die Ausprägungen üblicherweise als 0/1 codiert (z. B. 1 - Keks, 0 - kein Keks). Bei einer Mehrklassenklassifikation werden die Ausprägungen üblicherweise als 0, 1, 2, ... codiert (z. B. 0 - Bonbon, 1 - Keks, 2 - Marshmallow).
Viele verschiedene Modelle können Klassifikationsaufgaben durchführen. Einige Beispiele sind:
- k-Nearest Neighbors;
- Logistische Regression;
- Entscheidungsbaum;
- Random Forest.
Glücklicherweise sind sie alle in der scikit-learn-Bibliothek implementiert und einfach zu verwenden.
Kein Machine-Learning-Modell ist einem anderen grundsätzlich überlegen. Welches Modell die beste Leistung erbringt, hängt von der jeweiligen Aufgabe ab.
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 4.17
Was ist Klassifikation
Swipe um das Menü anzuzeigen
Klassifikation ist eine Aufgabe des überwachten Lernens. Ziel ist es, die Klasse zu bestimmen, zu der eine Instanz anhand einer Reihe von Parametern (Merkmalen) gehört. Dafür müssen dem Computer viele gelabelte Beispieldaten (genannt Trainingsmenge) bereitgestellt werden, damit er vorhersagen kann, zu welcher Klasse eine neue Instanz gehört.
Der Unterschied zwischen Klassifikation und Regression besteht darin, dass die Regression einen kontinuierlichen numerischen Wert vorhersagt, zum Beispiel einen Preis. Dieser kann jede reelle Zahl (für einen Preis nur positive Werte) annehmen.
Im Gegensatz dazu sagt die Klassifikation einen kategorischen Wert voraus, zum Beispiel die Art einer Süßigkeit. Es gibt eine endliche Menge an Werten, und das Modell versucht, jede Instanz einer dieser Kategorien zuzuordnen.
Basierend auf der Formulierung eines Problems gibt es verschiedene Arten der Klassifikation:
-
Binäre Klassifikation: Bei der binären Klassifikation ist das Ziel eine von zwei möglichen Ausprägungen. Zum Beispiel, E-Mail: Spam/Nicht-Spam, Süßigkeit: Keks/Nicht-Keks;
-
Mehrklassenklassifikation: Bei der Mehrklassenklassifikation gibt es drei oder mehr mögliche Ausprägungen für ein Ziel. Zum Beispiel, E-Mail: Spam/Wichtig/Werbung/Andere, Süßigkeit: Keks/Marshmallow/Bonbon;
-
Mehrfachklassifikation: Bei der Mehrfachklassifikation kann jede Instanz mehreren Klassen gleichzeitig zugeordnet werden. Zum Beispiel kann ein Film sowohl als Action- als auch als Komödie klassifiziert werden, oder eine E-Mail kann sowohl als wichtig als auch als arbeitsbezogen markiert werden.
Für die meisten ML-Modelle muss das Ziel in eine Zahl codiert werden. Bei der binären Klassifikation werden die Ausprägungen üblicherweise als 0/1 codiert (z. B. 1 - Keks, 0 - kein Keks). Bei einer Mehrklassenklassifikation werden die Ausprägungen üblicherweise als 0, 1, 2, ... codiert (z. B. 0 - Bonbon, 1 - Keks, 2 - Marshmallow).
Viele verschiedene Modelle können Klassifikationsaufgaben durchführen. Einige Beispiele sind:
- k-Nearest Neighbors;
- Logistische Regression;
- Entscheidungsbaum;
- Random Forest.
Glücklicherweise sind sie alle in der scikit-learn-Bibliothek implementiert und einfach zu verwenden.
Kein Machine-Learning-Modell ist einem anderen grundsätzlich überlegen. Welches Modell die beste Leistung erbringt, hängt von der jeweiligen Aufgabe ab.
Danke für Ihr Feedback!