Workflow voor Machine Learning
Veeg om het menu te tonen
Laten we kijken naar de workflow die je zou doorlopen om een succesvol machine learning-project op te zetten.
Stap 1. Gegevens verzamelen
Het probleem definiëren, een prestatie-indicator kiezen en bepalen wat als een goed resultaat geldt. Vervolgens de benodigde gegevens verzamelen uit beschikbare bronnen en deze omzetten naar een formaat dat geschikt is voor Python. Als de gegevens al in een CSV-bestand staan, kan de preprocessing direct beginnen.
Voorbeeld
Een ziekenhuis verzamelt patiëntendossiers en demografische gegevens in een CSV-bestand. Het doel is om heropnames te voorspellen, met als streven meer dan 80% nauwkeurigheid.
Stap 2. Gegevens preprocessen
Deze stap omvat:
- Gegevens opschonen: omgaan met ontbrekende waarden en niet-numerieke invoer;
- EDA: analyseren en visualiseren van gegevens om relaties te begrijpen en problemen te detecteren;
- Feature engineering: selecteren of creëren van kenmerken die de modelprestaties verbeteren.
Voorbeeld
Ontbrekende waarden (bijvoorbeeld bloeddruk) worden ingevuld en categorische kenmerken (zoals ras) worden omgezet naar numerieke vorm.
Stap 3. Modelleren
Deze fase omvat:
- Modelkeuze op basis van het type probleem en experimenten;
- Afstemming van hyperparameters om de prestaties te verbeteren;
- Modelbeoordeling op niet eerder geziene data.
Hyperparameters zijn instelbare parameters die bepalen hoe het model traint—zoals de duur van de training of de complexiteit van het model.
Voorbeeld
Een classificatiemodel wordt gekozen voor het voorspellen van heropname (ja/nee). Na afstemming wordt het geëvalueerd op een validatie-/testset om de generalisatie te beoordelen.
Stap 4. Implementatie
Zodra een model goed presteert, wordt het geïmplementeerd in echte systemen. Het model moet worden gemonitord, bijgewerkt met nieuwe data en in de loop van de tijd verbeterd, waarbij de cyclus vaak opnieuw begint vanaf Stap 1.
Voorbeeld
Het model wordt geïntegreerd in het ziekenhuisinformatiesysteem om bij opname risicopatiënten te signaleren, zodat het personeel vroegtijdig kan handelen.
Sommige van de hier genoemde termen klinken mogelijk onbekend, maar we bespreken deze later in deze cursus uitgebreider.
Gegevensvoorbewerking en modellering kunnen worden uitgevoerd met scikit-learn. De volgende hoofdstukken introduceren voorbewerkingsworkflows en pipelines, gevolgd door modellering met k-nearest neighbors (KNeighborsClassifier), inclusief training, afstemming en evaluatie.
1. Wat is het primaire doel van de stap "Gegevens verzamelen" in een machine learning-project?
2. Welke van de volgende omschrijvingen geeft het beste het belang weer van de stap "Gegevensvoorbewerking" in een machine learning-projectworkflow?
Bedankt voor je feedback!
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.