Ablauf des Maschinellen Lernens
Betrachtung des Workflows, der zur erfolgreichen Umsetzung eines Machine-Learning-Projekts durchlaufen wird.
Schritt 1. Datenbeschaffung
Definition des Problems und Identifikation der benötigten Daten. Auswahl einer Metrik zur Leistungsbewertung und Festlegung, welches Ergebnis als zufriedenstellend gilt.
Anschließend Sammlung der Daten, häufig aus mehreren Quellen wie Datenbanken, und Überführung in ein für die Verarbeitung in Python geeignetes Format.
Wenn die Daten bereits in einer .csv-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann entfallen.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes zur Erkennung von Mustern und Zusammenhängen zwischen Merkmalen sowie zur Gewinnung von Erkenntnissen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale auf Basis der EDA-Erkenntnisse zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler an einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Bewertung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um Patientenwiedereinweisungen vorherzusagen, was für binäre Ergebnisse (wiedereingewiesen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher behandeln.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste-Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Ablauf des Maschinellen Lernens
Swipe um das Menü anzuzeigen
Betrachtung des Workflows, der zur erfolgreichen Umsetzung eines Machine-Learning-Projekts durchlaufen wird.
Schritt 1. Datenbeschaffung
Definition des Problems und Identifikation der benötigten Daten. Auswahl einer Metrik zur Leistungsbewertung und Festlegung, welches Ergebnis als zufriedenstellend gilt.
Anschließend Sammlung der Daten, häufig aus mehreren Quellen wie Datenbanken, und Überführung in ein für die Verarbeitung in Python geeignetes Format.
Wenn die Daten bereits in einer .csv-Datei vorliegen, kann die Vorverarbeitung sofort beginnen und dieser Schritt kann entfallen.
Beispiel
Ein Krankenhaus stellt historische Patientendaten aus seiner Datenbank sowie demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei eine Genauigkeit von über 80 % als Zielmetrik für eine zufriedenstellende Leistung definiert ist.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
- Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes zur Erkennung von Mustern und Zusammenhängen zwischen Merkmalen sowie zur Gewinnung von Erkenntnissen, wie das Trainingsset verbessert werden kann;
- Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale auf Basis der EDA-Erkenntnisse zur Verbesserung der Modellleistung.
Beispiel
Im Krankenhausdatensatz können fehlende Werte für wichtige Kennzahlen wie Blutdruck ergänzt und kategoriale Variablen wie Ethnie in numerische Codes für die Analyse umgewandelt werden.
Schritt 3. Modellierung
Dieser Schritt umfasst:
- Modellauswahl: Auswahl eines oder mehrerer Modelle, die am besten für das Problem geeignet sind, basierend auf den Eigenschaften der Algorithmen und den experimentellen Ergebnissen;
- Hyperparameter-Optimierung: Anpassung der Hyperparameter, um die bestmögliche Leistung zu erzielen.
Stellen Sie sich Hyperparameter als die Knöpfe und Regler an einer Maschine vor, die Sie einstellen können, um deren Funktionsweise zu steuern. Im maschinellen Lernen sind diese "Knöpfe und Regler" Einstellungen (Werte), die ein Data Scientist vor dem Training des Modells anpasst. Beispielsweise können Hyperparameter festlegen, wie lange das Modell trainiert wird oder wie detailliert das Training sein soll.
- Modellbewertung: Bewertung der Leistung auf unbekannten Daten.
Beispiel
Ein Klassifikationsmodell wird ausgewählt, um Patientenwiedereinweisungen vorherzusagen, was für binäre Ergebnisse (wiedereingewiesen oder nicht) geeignet ist. Die Hyperparameter werden zur Leistungsoptimierung angepasst. Abschließend erfolgt die Bewertung auf einem separaten Validierungs- oder Testdatensatz, um zu überprüfen, wie gut das Modell über die Trainingsdaten hinaus generalisiert.
Schritt 4. Bereitstellung
Nachdem ein feinabgestimmtes Modell mit zufriedenstellender Leistung erhalten wurde, folgt als nächster Schritt die Bereitstellung. Das bereitgestellte Modell muss kontinuierlich überwacht, bei Bedarf verbessert und mit neuen Daten aktualisiert werden, sobald diese verfügbar sind. Dieser Prozess führt häufig zurück zu Schritt 1.
Beispiel
Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.
Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, aber wir werden sie später in diesem Kurs noch ausführlicher behandeln.
Datenvorverarbeitung und Modellierung können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Die folgenden Kapitel konzentrieren sich auf grundlegende Vorverarbeitungsschritte und den Aufbau von Pipelines. Die Modellierungsphase wird anschließend anhand des k-nächste-Nachbarn-Algorithmus (KNeighborsClassifier in sklearn) eingeführt. Dies umfasst den Aufbau des Modells, das Abstimmen von Hyperparametern und die Bewertung der Leistung.
1. Was ist der Hauptzweck des Schrittes "Daten beschaffen" in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!