Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Ablauf des Maschinellen Lernens | Konzepte des Maschinellen Lernens
ML-Einführung Mit Scikit-Learn

bookAblauf des Maschinellen Lernens

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

In diesem Schritt definieren Sie das Problem und welche Daten benötigt werden. Anschließend wählen Sie eine Metrik und legen fest, welches Ergebnis als zufriedenstellend gilt.

Als Nächstes müssen Sie diese Daten zusammentragen, in der Regel aus mehreren Quellen (Datenbanken), und in ein Format bringen, das für die weitere Verarbeitung in Python geeignet ist.

Manchmal liegen die Daten bereits im .csv-Format vor und sind bereit für die Vorverarbeitung, sodass dieser Schritt übersprungen werden kann.

Beispiel

Ein Krankenhaus stellt Ihnen historische Patientendaten aus seiner Datenbank sowie zusätzliche demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, alles zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei Genauigkeit (der Prozentsatz der insgesamt korrekten Vorhersagen) von über 80 % als Metrik für ein zufriedenstellendes Ergebnis dient.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Einblicke zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale auf Basis der EDA-Erkenntnisse zur Verbesserung der Modellleistung.

Beispiel

Für die Krankenhausdaten könnten Sie fehlende Werte für wichtige Kennzahlen wie Blutdruck auffüllen und kategorische Variablen wie Ethnie in numerische Codes für die Analyse umwandeln.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: In diesem Stadium wählen Sie ein oder mehrere Modelle aus, die für Ihr Problem die beste Leistung erbringen. Dies kombiniert das Verständnis des Algorithmus mit Experimenten an Modellen, um diejenigen zu finden, die für Ihr Problem geeignet sind;
  • Hyperparameter-Optimierung: Ein Prozess zur Bestimmung der Hyperparameter, die die beste Leistung erzielen;
  • Modellbewertung – Messung der Modellleistung anhand unbekannter Daten.

Beispiel

Sie wählen ein bestimmtes Klassifikationsmodell aus, um Patientenwiedereinweisungen vorherzusagen, was sich ideal für binäre Ergebnisse (wiedereingewiesen oder nicht) eignet. Anschließend optimieren Sie dessen Hyperparameter, um die Konfiguration des Modells zu verbessern. Schließlich wird die Modellleistung mit einem separaten Validierungs-/Testdatensatz bewertet, um sicherzustellen, dass das Modell auch außerhalb der Trainingsdaten effektiv generalisiert.

Schritt 4. Bereitstellung

Sobald Sie ein feinabgestimmtes Modell mit guter Leistung haben, können Sie es bereitstellen. Doch damit endet Ihre Aufgabe nicht. In den meisten Fällen möchten Sie auch die Leistung des bereitgestellten Modells überwachen, Möglichkeiten zur Verbesserung finden und neue Daten einspeisen, sobald diese gesammelt werden. Dies führt Sie zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Datenvorverarbeitung und Modellierungsschritte können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Darum geht es im weiteren Verlauf des Kurses.

Wir lernen einige grundlegende Vorverarbeitungsschritte und wie man Pipelines erstellt. Anschließend behandeln wir die Modellierungsphase anhand des k-nächste Nachbarn-Algorithmus (implementiert als KNearestClassifier in sklearn) als Beispielmodell. Dies umfasst das Erstellen eines Modells, das Abstimmen von Hyperparametern und die Bewertung des Modells.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 3.13

bookAblauf des Maschinellen Lernens

Swipe um das Menü anzuzeigen

Betrachten wir den Workflow, den Sie durchlaufen würden, um ein erfolgreiches Machine-Learning-Projekt zu erstellen.

Schritt 1. Datenbeschaffung

In diesem Schritt definieren Sie das Problem und welche Daten benötigt werden. Anschließend wählen Sie eine Metrik und legen fest, welches Ergebnis als zufriedenstellend gilt.

Als Nächstes müssen Sie diese Daten zusammentragen, in der Regel aus mehreren Quellen (Datenbanken), und in ein Format bringen, das für die weitere Verarbeitung in Python geeignet ist.

Manchmal liegen die Daten bereits im .csv-Format vor und sind bereit für die Vorverarbeitung, sodass dieser Schritt übersprungen werden kann.

Beispiel

Ein Krankenhaus stellt Ihnen historische Patientendaten aus seiner Datenbank sowie zusätzliche demografische Informationen aus einer nationalen Gesundheitsdatenbank zur Verfügung, alles zusammengefasst in einer CSV-Datei. Die Aufgabe besteht darin, Patientenwiedereinweisungen vorherzusagen, wobei Genauigkeit (der Prozentsatz der insgesamt korrekten Vorhersagen) von über 80 % als Metrik für ein zufriedenstellendes Ergebnis dient.

Schritt 2. Datenvorverarbeitung

Dieser Schritt umfasst:

  • Datenbereinigung: Umgang mit fehlenden Werten, nicht-numerischen Daten usw.;
  • Explorative Datenanalyse (EDA): Analyse und Visualisierung des Datensatzes, um Muster und Zusammenhänge zwischen Merkmalen zu erkennen und allgemein Einblicke zu gewinnen, wie das Trainingsset verbessert werden kann;
  • Feature Engineering: Auswahl, Transformation oder Erstellung neuer Merkmale auf Basis der EDA-Erkenntnisse zur Verbesserung der Modellleistung.

Beispiel

Für die Krankenhausdaten könnten Sie fehlende Werte für wichtige Kennzahlen wie Blutdruck auffüllen und kategorische Variablen wie Ethnie in numerische Codes für die Analyse umwandeln.

Schritt 3. Modellierung

Dieser Schritt umfasst:

  • Modellauswahl: In diesem Stadium wählen Sie ein oder mehrere Modelle aus, die für Ihr Problem die beste Leistung erbringen. Dies kombiniert das Verständnis des Algorithmus mit Experimenten an Modellen, um diejenigen zu finden, die für Ihr Problem geeignet sind;
  • Hyperparameter-Optimierung: Ein Prozess zur Bestimmung der Hyperparameter, die die beste Leistung erzielen;
  • Modellbewertung – Messung der Modellleistung anhand unbekannter Daten.

Beispiel

Sie wählen ein bestimmtes Klassifikationsmodell aus, um Patientenwiedereinweisungen vorherzusagen, was sich ideal für binäre Ergebnisse (wiedereingewiesen oder nicht) eignet. Anschließend optimieren Sie dessen Hyperparameter, um die Konfiguration des Modells zu verbessern. Schließlich wird die Modellleistung mit einem separaten Validierungs-/Testdatensatz bewertet, um sicherzustellen, dass das Modell auch außerhalb der Trainingsdaten effektiv generalisiert.

Schritt 4. Bereitstellung

Sobald Sie ein feinabgestimmtes Modell mit guter Leistung haben, können Sie es bereitstellen. Doch damit endet Ihre Aufgabe nicht. In den meisten Fällen möchten Sie auch die Leistung des bereitgestellten Modells überwachen, Möglichkeiten zur Verbesserung finden und neue Daten einspeisen, sobald diese gesammelt werden. Dies führt Sie zurück zu Schritt 1.

Beispiel

Sobald das Modell Wiedereinweisungen präzise vorhersagt, wird es in das Datenbanksystem des Krankenhauses integriert, um das Personal bei der Aufnahme über Hochrisikopatienten zu informieren und so die Patientenversorgung zu verbessern.

Datenvorverarbeitung und Modellierungsschritte können mit der Bibliothek scikit-learn (importiert als sklearn) durchgeführt werden. Darum geht es im weiteren Verlauf des Kurses.

Wir lernen einige grundlegende Vorverarbeitungsschritte und wie man Pipelines erstellt. Anschließend behandeln wir die Modellierungsphase anhand des k-nächste Nachbarn-Algorithmus (implementiert als KNearestClassifier in sklearn) als Beispielmodell. Dies umfasst das Erstellen eines Modells, das Abstimmen von Hyperparametern und die Bewertung des Modells.

1. Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

2. Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

question mark

Was ist der Hauptzweck des Schrittes „Daten beschaffen“ in einem Machine-Learning-Projekt?

Select the correct answer

question mark

Welche der folgenden Aussagen beschreibt am besten die Bedeutung des Schrittes "Datenvorverarbeitung" im Workflow eines Machine-Learning-Projekts?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 5
some-alt