Summary  
This chapter introduces how to structure a modular machine learning pipeline—covering data ingestion, preprocessing (cleaning, exploratory analysis, feature engineering), model selection and tuning, evaluation, and deployment.  

General domain of usage  
Healthcare

Vi ska titta på arbetsflödet du skulle följa för att bygga ett framgångsrikt maskininlärningsprojekt.

## Steg 1. Hämta data

Definiera problemet, välj en prestationsmetrik och bestäm vad som kvalificerar som ett bra resultat. Samla sedan in nödvändig data från tillgängliga källor och omvandla den till ett format som är redo för Python.
Om datan redan finns i en CSV-fil kan förbehandlingen börja omedelbart.

### Exempel

Ett sjukhus sammanställer patientjournaler och demografiska uppgifter i en CSV-fil. Målet är att **förutsäga återinläggningar**, med målsättningen att uppnå **över 80 % noggrannhet**.

## Steg 2. Förbehandla data

Detta steg inkluderar:

* **Datastädning**: hantering av saknade värden och icke-numeriska indata;
* **EDA**: analys och visualisering av data för att förstå samband och upptäcka problem;
* **Feature engineering**: val eller skapande av egenskaper som förbättrar modellens prestanda.

### Exempel

Saknade värden (t.ex. blodtryck) fylls i och kategoriska egenskaper (t.ex. ras) omvandlas till numerisk form.

## Steg 3. Modellering

Detta steg inkluderar:

* **Val av modell** baserat på problemtyp och experiment;
* **Justering av hyperparametrar** för att förbättra prestanda;
* **Utvärdering av modell** på osedda data.



Hyperparametrar är justerbara kontroller som definierar hur modellen tränas—såsom träningslängd eller modellkomplexitet.

Läs mer

### Exempel

En **klassificeringsmodell** väljs för att förutsäga återinläggning (ja/nej). Efter justering utvärderas den på en **validerings-/testuppsättning** för att bedöma generalisering.

## Steg 4. Driftsättning

När en modell presterar bra **driftsätts** den i verkliga system. Modellen måste övervakas, uppdateras med ny data och förbättras över tid, vilket ofta innebär att cykeln startar om från **Steg 1**.

### Exempel

Modellen integreras i sjukhussystemet för att markera högriskpatienter vid inläggning, vilket hjälper personalen att agera tidigt.

Vissa av de termer som nämns här kan låta obekanta, men vi kommer att gå igenom dem mer ingående senare i kursen.

Notering

Datapreprocessering och modellering kan utföras med `scikit-learn`. De kommande kapitlen introducerar preprocesseringsarbetsflöden och pipelines, följt av modellering med **k-närmaste grannar** (`KNeighborsClassifier`), inklusive träning, justering och utvärdering.

Vad är det primära syftet med steget "Hämta data" i ett maskininlärningsprojekt?

Vilket av följande beskriver bäst vikten av steget "Datapreprocessering" i ett arbetsflöde för maskininlärningsprojekt?

Maskininlärning används nu överallt. Vill du lära dig det själv? Denna kurs är en introduktion till maskininlärningens värld där du får lära dig grundläggande begrepp, arbeta med scikit-learn – det mest populära biblioteket för ML, och bygga ditt första maskininlärningsprojekt.
Kursen är avsedd för studenter med grundläggande kunskaper i Python, Pandas och Numpy.

Lär dig maskininlärningskoncept och arbetsflödet för ML-projekt.

Förbehandling är troligen det viktigaste steget i ett ML-projekt. Detta kapitel behandlar de förbehandlingssteg som krävs för nästan alla datamängder.

En pipeline är ett smidigt sätt att kombinera alla förbehandlingssteg samt en modell. Pipelines gör det mycket enklare att träna och använda en modell.

Modellering är det mest underhållande steget i ett ML-projekt. Lär dig att bygga, finjustera och utvärdera modellen!

Arbetsflöde för maskininlärning

Steg 1. Hämta data

Exempel

Steg 2. Förbehandla data

Exempel

Steg 3. Modellering

Exempel

Steg 4. Driftsättning

Exempel

1. Vad är det primära syftet med steget "Hämta data" i ett maskininlärningsprojekt?

2. Vilket av följande beskriver bäst vikten av steget "Datapreprocessering" i ett arbetsflöde för maskininlärningsprojekt?