Sveip for å vise menyen

La oss se på arbeidsflyten du følger for å bygge et vellykket maskinlæringsprosjekt.

Steg 1. Skaff dataene

Definer problemet, velg en ytelsesmetrik, og avgjør hva som kvalifiserer som et godt resultat. Samle deretter inn nødvendig data fra tilgjengelige kilder og gjør det klart for bruk i Python. Hvis dataene allerede finnes i en CSV-fil, kan forbehandlingen starte umiddelbart.

Eksempel

Et sykehus samler pasientjournaler og demografiske data i en CSV-fil. Målet er å forutsi reinnleggelser, med et mål om over 80 % nøyaktighet.

Steg 2. Forbehandle dataene

Dette steget inkluderer:

Datavask: håndtering av manglende verdier og ikke-numeriske input;
EDA: analyse og visualisering av data for å forstå sammenhenger og oppdage problemer;
Feature engineering: valg eller opprettelse av egenskaper som forbedrer modellens ytelse.

Eksempel

Manglende verdier (f.eks. blodtrykk) fylles inn, og kategoriske egenskaper (f.eks. rase) konverteres til numerisk form.

Steg 3. Modellering

Denne fasen inkluderer:

Valg av modell basert på problemtype og eksperimenter;
Justering av hyperparametre for å forbedre ytelsen;
Evaluering av modell på ukjente data.

Les mer

Hyperparametre er justerbare innstillinger som definerer hvordan modellen trenes—slik som treningsvarighet eller modellkompleksitet.

Eksempel

En klassifiseringsmodell velges for å forutsi reinnleggelse (ja/nei). Etter justering evalueres den på et validerings-/testsett for å vurdere generalisering.

Steg 4. Distribusjon

Når en modell presterer godt, blir den distribuert til virkelige systemer. Modellen må overvåkes, oppdateres med nye data og forbedres over tid, ofte ved å starte syklusen på nytt fra Steg 1.

Eksempel

Modellen integreres i sykehussystemet for å markere høyrisikopasienter ved innleggelse, slik at personalet kan handle tidlig.

Merk

Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå gjennom dem i mer detalj senere i kurset.

Dataprosessering og modellering kan utføres med scikit-learn. De neste kapitlene introduserer prosesseringsarbeidsflyter og pipelines, etterfulgt av modellering med k-nærmeste naboer (KNeighborsClassifier), inkludert trening, justering og evaluering.

1. Hva er hovedformålet med steget "Hent data" i et maskinlæringsprosjekt?

2. Hvilket av følgende beskriver best viktigheten av steget "Dataprosessering" i en arbeidsflyt for maskinlæringsprosjekter?

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Arbeidsflyt for maskinlæring

La oss se på arbeidsflyten du følger for å bygge et vellykket maskinlæringsprosjekt.

Steg 1. Skaff dataene

Eksempel

Et sykehus samler pasientjournaler og demografiske data i en CSV-fil. Målet er å forutsi reinnleggelser, med et mål om over 80 % nøyaktighet.

Steg 2. Forbehandle dataene

Dette steget inkluderer:

Datavask: håndtering av manglende verdier og ikke-numeriske input;
EDA: analyse og visualisering av data for å forstå sammenhenger og oppdage problemer;
Feature engineering: valg eller opprettelse av egenskaper som forbedrer modellens ytelse.

Eksempel

Manglende verdier (f.eks. blodtrykk) fylles inn, og kategoriske egenskaper (f.eks. rase) konverteres til numerisk form.

Steg 3. Modellering

Denne fasen inkluderer:

Valg av modell basert på problemtype og eksperimenter;
Justering av hyperparametre for å forbedre ytelsen;
Evaluering av modell på ukjente data.

Les mer

Hyperparametre er justerbare innstillinger som definerer hvordan modellen trenes—slik som treningsvarighet eller modellkompleksitet.

Eksempel

En klassifiseringsmodell velges for å forutsi reinnleggelse (ja/nei). Etter justering evalueres den på et validerings-/testsett for å vurdere generalisering.

Steg 4. Distribusjon

Eksempel

Modellen integreres i sykehussystemet for å markere høyrisikopasienter ved innleggelse, slik at personalet kan handle tidlig.

Merk

Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå gjennom dem i mer detalj senere i kurset.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5