Workflow voor Machine Learning
Bekijk het workflowproces dat gevolgd wordt om een succesvol machine learning-project op te zetten.
Stap 1. Gegevens verzamelen
Begin met het definiëren van het probleem en bepaal welke gegevens nodig zijn. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.
Verzamel vervolgens de gegevens, vaak uit meerdere bronnen zoals databases, en zet deze om naar een formaat dat geschikt is voor verwerking in Python.
Als de gegevens al beschikbaar zijn in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.
Voorbeeld
Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie geldt.
Stap 2. Gegevens preprocessen
Deze stap bestaat uit:
- Gegevens opschonen: omgaan met ontbrekende waarden, niet-numerieke gegevens, enzovoort;
- Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te ontdekken en om inzicht te krijgen in hoe de trainingsset verbeterd kan worden;
- Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van inzichten uit EDA om de prestaties van het model te verbeteren.
Voorbeeld
In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld en categorische variabelen zoals ras worden omgezet in numerieke codes voor analyse.
Stap 3. Modelleren
Deze stap omvat:
- Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, op basis van algoritme-eigenschappen en experimentele resultaten;
- Afstemming van hyperparameters: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.
- Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.
Voorbeeld
Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.
Stap 4. Implementatie
Na het verkrijgen van een verfijnd model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe gegevens zodra deze beschikbaar komen. Dit proces leidt vaak terug naar Stap 1.
Voorbeeld
Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, waardoor de patiëntenzorg wordt verbeterd.
Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.
Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.
1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?
2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Awesome!
Completion rate improved to 3.13
Workflow voor Machine Learning
Veeg om het menu te tonen
Bekijk het workflowproces dat gevolgd wordt om een succesvol machine learning-project op te zetten.
Stap 1. Gegevens verzamelen
Begin met het definiëren van het probleem en bepaal welke gegevens nodig zijn. Selecteer een metriek om de prestaties te evalueren en bepaal welk resultaat als voldoende wordt beschouwd.
Verzamel vervolgens de gegevens, vaak uit meerdere bronnen zoals databases, en zet deze om naar een formaat dat geschikt is voor verwerking in Python.
Als de gegevens al beschikbaar zijn in een .csv-bestand, kan de preprocessing direct beginnen en kan deze stap worden overgeslagen.
Voorbeeld
Een ziekenhuis levert historische patiëntendossiers uit zijn database, samen met demografische informatie uit een nationale gezondheidsdatabase, samengevoegd in een CSV-bestand. De taak is om heropnames van patiënten te voorspellen, waarbij een nauwkeurigheid van meer dan 80% als doelstelling voor voldoende prestatie geldt.
Stap 2. Gegevens preprocessen
Deze stap bestaat uit:
- Gegevens opschonen: omgaan met ontbrekende waarden, niet-numerieke gegevens, enzovoort;
- Exploratieve data-analyse (EDA): analyseren en visualiseren van de dataset om patronen en relaties tussen kenmerken te ontdekken en om inzicht te krijgen in hoe de trainingsset verbeterd kan worden;
- Feature engineering: selecteren, transformeren of creëren van nieuwe kenmerken op basis van inzichten uit EDA om de prestaties van het model te verbeteren.
Voorbeeld
In de ziekenhuisdataset kunnen ontbrekende waarden voor belangrijke metingen zoals bloeddruk worden ingevuld en categorische variabelen zoals ras worden omgezet in numerieke codes voor analyse.
Stap 3. Modelleren
Deze stap omvat:
- Modelkeuze: het selecteren van één of meerdere modellen die het meest geschikt zijn voor het probleem, op basis van algoritme-eigenschappen en experimentele resultaten;
- Afstemming van hyperparameters: het aanpassen van hyperparameters om de best mogelijke prestaties te bereiken.
Beschouw hyperparameters als de knoppen en draaiknoppen op een machine die je kunt aanpassen om te bepalen hoe deze werkt. In machine learning zijn deze "knoppen en draaiknoppen" instellingen (waarden) die een data scientist voorafgaand aan het trainen van het model aanpast. Bijvoorbeeld, hyperparameters kunnen bepalen hoe lang het model getraind wordt of hoe gedetailleerd de training moet zijn.
- Evaluatie van het model: het meten van de prestaties op niet eerder geziene data.
Voorbeeld
Een classificatiemodel wordt geselecteerd om heropnames van patiënten te voorspellen, wat geschikt is voor binaire uitkomsten (wel of niet heropgenomen). De hyperparameters worden afgestemd om de prestaties te optimaliseren. Tot slot wordt de evaluatie uitgevoerd op een aparte validatie- of testset om te controleren hoe goed het model generaliseert buiten de trainingsdata.
Stap 4. Implementatie
Na het verkrijgen van een verfijnd model met bevredigende prestaties, is de volgende stap implementatie. Het geïmplementeerde model moet continu worden gemonitord, waar nodig worden verbeterd en worden bijgewerkt met nieuwe gegevens zodra deze beschikbaar komen. Dit proces leidt vaak terug naar Stap 1.
Voorbeeld
Zodra het model heropnames nauwkeurig voorspelt, wordt het geïntegreerd in het databasesysteem van het ziekenhuis om het personeel bij opname te waarschuwen voor risicopatiënten, waardoor de patiëntenzorg wordt verbeterd.
Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we zullen deze later in deze cursus uitgebreider bespreken.
Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met de scikit-learn bibliotheek (geïmporteerd als sklearn). De volgende hoofdstukken richten zich op basisstappen van voorbewerking en het opzetten van pipelines. De modelleringsfase wordt vervolgens geïntroduceerd met het k-nearest neighbors algoritme (KNeighborsClassifier in sklearn) als voorbeeld. Dit omvat het bouwen van het model, het afstemmen van hyperparameters en het evalueren van de prestaties.
1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning project?
2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in de workflow van een machine learning project?
Bedankt voor je feedback!