Ablauf des Maschinellen Lernens
Betrachten wir den Ablauf, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Das Problem definieren, eine Leistungskennzahl auswählen und festlegen, was als gutes Ergebnis gilt. Anschließend die benötigten Daten aus verfügbaren Quellen sammeln und in ein für Python geeignetes Format bringen. Wenn die Daten bereits in einer CSV-Datei vorliegen, kann die Vorverarbeitung sofort beginnen.
Beispiel
Ein Krankenhaus sammelt Patientenakten und demografische Daten in einer CSV-Datei. Ziel ist es, Wiedereinweisungen vorherzusagen, mit einer Genauigkeit von über 80%.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten und nicht-numerischen Eingaben;
- EDA: Analyse und Visualisierung der Daten, um Zusammenhänge zu erkennen und Probleme zu identifizieren;
- Feature Engineering: Auswahl oder Erstellung von Merkmalen, die die Modellleistung verbessern.
Beispiel
Fehlende Werte (z. B. Blutdruck) werden ergänzt und kategoriale Merkmale (z. B. Ethnie) in numerische Form umgewandelt.
Schritt 3. Modellierung
Diese Phase umfasst:
- Auswahl eines Modells basierend auf dem Problemtyp und Experimenten;
- Hyperparameter-Optimierung zur Leistungsverbesserung;
- Modellevaluierung mit unbekannten Daten.
Hyperparameter sind einstellbare Steuergrößen, die definieren, wie das Modell trainiert wird—wie zum Beispiel Trainingsdauer oder Modellkomplexität.
Beispiel
Ein Klassifikationsmodell wird zur Vorhersage einer Wiederaufnahme (ja/nein) ausgewählt. Nach der Optimierung wird es auf einem Validierungs-/Testdatensatz bewertet, um die Generalisierungsfähigkeit zu beurteilen.
Schritt 4. Bereitstellung
Sobald ein Modell gute Ergebnisse liefert, wird es in reale Systeme überführt. Das Modell muss überwacht, mit neuen Daten aktualisiert und im Laufe der Zeit verbessert werden, wobei der Zyklus häufig wieder bei Schritt 1 beginnt.
Beispiel
Das Modell wird in das Krankenhausinformationssystem integriert, um bei der Aufnahme Hochrisikopatienten zu kennzeichnen und dem Personal ein frühzeitiges Handeln zu ermöglichen.
Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, werden jedoch später in diesem Kurs ausführlicher behandelt.
Datenvorverarbeitung und Modellierung können mit scikit-learn durchgeführt werden. Die nächsten Kapitel stellen Vorverarbeitungs-Workflows und Pipelines vor, gefolgt von der Modellierung mit k-nächste Nachbarn (KNeighborsClassifier), einschließlich Training, Feinabstimmung und Bewertung.
1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain more about data preprocessing steps?
What is feature engineering and why is it important?
How does KNeighborsClassifier work in machine learning?
Awesome!
Completion rate improved to 3.13
Ablauf des Maschinellen Lernens
Swipe um das Menü anzuzeigen
Betrachten wir den Ablauf, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.
Schritt 1. Datenbeschaffung
Das Problem definieren, eine Leistungskennzahl auswählen und festlegen, was als gutes Ergebnis gilt. Anschließend die benötigten Daten aus verfügbaren Quellen sammeln und in ein für Python geeignetes Format bringen. Wenn die Daten bereits in einer CSV-Datei vorliegen, kann die Vorverarbeitung sofort beginnen.
Beispiel
Ein Krankenhaus sammelt Patientenakten und demografische Daten in einer CSV-Datei. Ziel ist es, Wiedereinweisungen vorherzusagen, mit einer Genauigkeit von über 80%.
Schritt 2. Datenvorverarbeitung
Dieser Schritt umfasst:
- Datenbereinigung: Umgang mit fehlenden Werten und nicht-numerischen Eingaben;
- EDA: Analyse und Visualisierung der Daten, um Zusammenhänge zu erkennen und Probleme zu identifizieren;
- Feature Engineering: Auswahl oder Erstellung von Merkmalen, die die Modellleistung verbessern.
Beispiel
Fehlende Werte (z. B. Blutdruck) werden ergänzt und kategoriale Merkmale (z. B. Ethnie) in numerische Form umgewandelt.
Schritt 3. Modellierung
Diese Phase umfasst:
- Auswahl eines Modells basierend auf dem Problemtyp und Experimenten;
- Hyperparameter-Optimierung zur Leistungsverbesserung;
- Modellevaluierung mit unbekannten Daten.
Hyperparameter sind einstellbare Steuergrößen, die definieren, wie das Modell trainiert wird—wie zum Beispiel Trainingsdauer oder Modellkomplexität.
Beispiel
Ein Klassifikationsmodell wird zur Vorhersage einer Wiederaufnahme (ja/nein) ausgewählt. Nach der Optimierung wird es auf einem Validierungs-/Testdatensatz bewertet, um die Generalisierungsfähigkeit zu beurteilen.
Schritt 4. Bereitstellung
Sobald ein Modell gute Ergebnisse liefert, wird es in reale Systeme überführt. Das Modell muss überwacht, mit neuen Daten aktualisiert und im Laufe der Zeit verbessert werden, wobei der Zyklus häufig wieder bei Schritt 1 beginnt.
Beispiel
Das Modell wird in das Krankenhausinformationssystem integriert, um bei der Aufnahme Hochrisikopatienten zu kennzeichnen und dem Personal ein frühzeitiges Handeln zu ermöglichen.
Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, werden jedoch später in diesem Kurs ausführlicher behandelt.
Datenvorverarbeitung und Modellierung können mit scikit-learn durchgeführt werden. Die nächsten Kapitel stellen Vorverarbeitungs-Workflows und Pipelines vor, gefolgt von der Modellierung mit k-nächste Nachbarn (KNeighborsClassifier), einschließlich Training, Feinabstimmung und Bewertung.
1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?
2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?
Danke für Ihr Feedback!