Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Machine Learning Workflow | Abschnitt
Grundlagen des Machine Learning

bookMachine Learning Workflow

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu entwickeln.

Schritt 1. Datenbeschaffung

Das Problem definieren, eine Leistungskennzahl auswählen und festlegen, was als gutes Ergebnis gilt. Anschließend die erforderlichen Daten aus verfügbaren Quellen sammeln und in ein für Python geeignetes Format bringen. Wenn die Daten bereits in einer CSV-Datei vorliegen, kann die Vorverarbeitung sofort beginnen.

Beispiel

Ein Krankenhaus sammelt Patientendaten und demografische Informationen in einer CSV-Datei. Ziel ist es, Wiedereinweisungen vorherzusagen und eine Genauigkeit von über 80 % zu erreichen.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten und nicht-numerischen Eingaben;
  • EDA: Analyse und Visualisierung der Daten, um Zusammenhänge zu erkennen und Probleme zu identifizieren;
  • Feature Engineering: Auswahl oder Erstellung von Merkmalen, die die Modellleistung verbessern.

Beispiel

Fehlende Werte (z. B. Blutdruck) werden ergänzt und kategoriale Merkmale (z. B. Ethnie) in numerische Form umgewandelt.

Schritt 3. Modellierung

Diese Phase umfasst:

  • Modellauswahl basierend auf dem Problemtyp und Experimenten;
  • Hyperparameter-Optimierung zur Leistungssteigerung;
  • Modellevaluierung mit unbekannten Daten.
Note
Mehr erfahren

Hyperparameter sind anpassbare Steuergrößen, die definieren, wie das Modell trainiert wird—wie etwa Trainingsdauer oder Modellkomplexität.

Beispiel

Ein Klassifikationsmodell wird zur Vorhersage einer Wiederaufnahme (ja/nein) ausgewählt. Nach der Optimierung wird es auf einem Validierungs-/Testdatensatz bewertet, um die Generalisierungsfähigkeit zu prüfen.

Schritt 4. Bereitstellung

Sobald ein Modell gute Ergebnisse liefert, wird es in reale Systeme überführt. Das Modell muss überwacht, mit neuen Daten aktualisiert und im Laufe der Zeit verbessert werden, wobei der Zyklus häufig wieder bei Schritt 1 beginnt.

Beispiel

Das Modell wird in das Krankenhausinformationssystem integriert, um bei der Aufnahme Hochrisikopatienten zu kennzeichnen und dem Personal ein frühzeitiges Handeln zu ermöglichen.

Note
Hinweis

Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, werden jedoch später in diesem Kurs ausführlicher behandelt.

Datenvorverarbeitung und Modellierung können mit scikit-learn durchgeführt werden. Die nächsten Kapitel führen in Vorverarbeitungs-Workflows und Pipelines ein, gefolgt von der Modellierung mit k-nächste Nachbarn (KNeighborsClassifier), einschließlich Training, Feinabstimmung und Bewertung.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

bookMachine Learning Workflow

Swipe um das Menü anzuzeigen

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu entwickeln.

Schritt 1. Datenbeschaffung

Das Problem definieren, eine Leistungskennzahl auswählen und festlegen, was als gutes Ergebnis gilt. Anschließend die erforderlichen Daten aus verfügbaren Quellen sammeln und in ein für Python geeignetes Format bringen. Wenn die Daten bereits in einer CSV-Datei vorliegen, kann die Vorverarbeitung sofort beginnen.

Beispiel

Ein Krankenhaus sammelt Patientendaten und demografische Informationen in einer CSV-Datei. Ziel ist es, Wiedereinweisungen vorherzusagen und eine Genauigkeit von über 80 % zu erreichen.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten und nicht-numerischen Eingaben;
  • EDA: Analyse und Visualisierung der Daten, um Zusammenhänge zu erkennen und Probleme zu identifizieren;
  • Feature Engineering: Auswahl oder Erstellung von Merkmalen, die die Modellleistung verbessern.

Beispiel

Fehlende Werte (z. B. Blutdruck) werden ergänzt und kategoriale Merkmale (z. B. Ethnie) in numerische Form umgewandelt.

Schritt 3. Modellierung

Diese Phase umfasst:

  • Modellauswahl basierend auf dem Problemtyp und Experimenten;
  • Hyperparameter-Optimierung zur Leistungssteigerung;
  • Modellevaluierung mit unbekannten Daten.
Note
Mehr erfahren

Hyperparameter sind anpassbare Steuergrößen, die definieren, wie das Modell trainiert wird—wie etwa Trainingsdauer oder Modellkomplexität.

Beispiel

Ein Klassifikationsmodell wird zur Vorhersage einer Wiederaufnahme (ja/nein) ausgewählt. Nach der Optimierung wird es auf einem Validierungs-/Testdatensatz bewertet, um die Generalisierungsfähigkeit zu prüfen.

Schritt 4. Bereitstellung

Sobald ein Modell gute Ergebnisse liefert, wird es in reale Systeme überführt. Das Modell muss überwacht, mit neuen Daten aktualisiert und im Laufe der Zeit verbessert werden, wobei der Zyklus häufig wieder bei Schritt 1 beginnt.

Beispiel

Das Modell wird in das Krankenhausinformationssystem integriert, um bei der Aufnahme Hochrisikopatienten zu kennzeichnen und dem Personal ein frühzeitiges Handeln zu ermöglichen.

Note
Hinweis

Einige der hier genannten Begriffe mögen zunächst ungewohnt erscheinen, werden jedoch später in diesem Kurs ausführlicher behandelt.

Datenvorverarbeitung und Modellierung können mit scikit-learn durchgeführt werden. Die nächsten Kapitel führen in Vorverarbeitungs-Workflows und Pipelines ein, gefolgt von der Modellierung mit k-nächste Nachbarn (KNeighborsClassifier), einschließlich Training, Feinabstimmung und Bewertung.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes „Datenvorverarbeitung“ im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt