Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Workflow voor Machine Learning | Machine Learning Concepten
ML-Introductie Met Scikit-Learn

bookWorkflow voor Machine Learning

Bekijk het workflowproces dat gevolgd wordt om een succesvol machine learning-project op te zetten.

Stap 1. Gegevens verzamelen

Begin met het definiëren van het probleem en bepaal welke gegevens nodig zijn. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.

Verzamel vervolgens de gegevens, vaak uit meerdere bronnen zoals databases, en zet deze om naar een formaat dat geschikt is voor verwerking in Python.

Als de gegevens al beschikbaar zijn in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.

Voorbeeld

Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie geldt.

Stap 2. Gegevens preprocessen

Deze stap bestaat uit:

  • Gegevens opschonen: omgaan met ontbrekende waarden, niet-numerieke gegevens, enzovoort;
  • Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te ontdekken en om inzicht te krijgen in hoe de trainingsset verbeterd kan worden;
  • Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van inzichten uit EDA om de prestaties van het model te verbeteren.

Voorbeeld

In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld en categorische variabelen zoals ras worden omgezet in numerieke codes voor analyse.

Stap 3. Modelleren

Deze stap omvat:

  • Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, op basis van algoritme-eigenschappen en experimentele resultaten;
  • Afstemming van hyperparameters: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Note
Meer leren

Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.

  • Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.

Voorbeeld

Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.

Stap 4. Implementatie

Na het verkrijgen van een verfijnd model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe gegevens zodra deze beschikbaar komen. Dit proces leidt vaak terug naar Stap 1.

Voorbeeld

Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, waardoor de patiëntenzorg wordt verbeterd.

Note
Opmerking

Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.

Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.

1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

question mark

Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

Select the correct answer

question mark

Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Awesome!

Completion rate improved to 3.13

bookWorkflow voor Machine Learning

Veeg om het menu te tonen

Bekijk het workflowproces dat gevolgd wordt om een succesvol machine learning-project op te zetten.

Stap 1. Gegevens verzamelen

Begin met het definiëren van het probleem en bepaal welke gegevens nodig zijn. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.

Verzamel vervolgens de gegevens, vaak uit meerdere bronnen zoals databases, en zet deze om naar een formaat dat geschikt is voor verwerking in Python.

Als de gegevens al beschikbaar zijn in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.

Voorbeeld

Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie geldt.

Stap 2. Gegevens preprocessen

Deze stap bestaat uit:

  • Gegevens opschonen: omgaan met ontbrekende waarden, niet-numerieke gegevens, enzovoort;
  • Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te ontdekken en om inzicht te krijgen in hoe de trainingsset verbeterd kan worden;
  • Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van inzichten uit EDA om de prestaties van het model te verbeteren.

Voorbeeld

In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld en categorische variabelen zoals ras worden omgezet in numerieke codes voor analyse.

Stap 3. Modelleren

Deze stap omvat:

  • Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, op basis van algoritme-eigenschappen en experimentele resultaten;
  • Afstemming van hyperparameters: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Note
Meer leren

Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.

  • Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.

Voorbeeld

Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.

Stap 4. Implementatie

Na het verkrijgen van een verfijnd model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe gegevens zodra deze beschikbaar komen. Dit proces leidt vaak terug naar Stap 1.

Voorbeeld

Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, waardoor de patiëntenzorg wordt verbeterd.

Note
Opmerking

Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.

Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.

1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

question mark

Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?

Select the correct answer

question mark

Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?

Select the correct answer

Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 1. Hoofdstuk 5
some-alt