Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Arbeidsflyt for maskinlæring | Maskinlæringskonsepter
Introduksjon til ML med Scikit-learn

bookArbeidsflyt for maskinlæring

La oss se på arbeidsflyten du følger for å bygge et vellykket maskinlæringsprosjekt.

Steg 1. Skaff dataene

Start med å definere problemet og identifisere hvilke data som kreves. Velg en metrikk for å evaluere ytelsen og bestem hvilket resultat som anses som tilfredsstillende.

Deretter samles dataene inn, ofte fra flere kilder som databaser, og bringes inn i et format som egner seg for behandling i Python.

Hvis dataene allerede er tilgjengelige i en .csv-fil, kan forhåndsbehandlingen starte umiddelbart, og dette steget kan hoppes over.

Eksempel

Et sykehus gir historiske pasientjournaler fra sin database sammen med demografisk informasjon fra en nasjonal helsedatabase, samlet i en CSV-fil. Oppgaven er å forutsi pasientinnleggelser på nytt, med nøyaktighet over 80 % definert som mål for tilfredsstillende ytelse.

Steg 2. Forhåndsbehandle dataene

Dette steget består av:

  • Datavask: håndtering av manglende verdier, ikke-numeriske data, osv.;
  • Utforskende dataanalyse (EDA): analyse og visualisering av datasettet for å finne mønstre og sammenhenger mellom variabler, og generelt for å få innsikt i hvordan treningssettet kan forbedres;
  • Feature engineering: utvelgelse, transformasjon eller opprettelse av nye variabler basert på innsikt fra EDA for å forbedre modellens ytelse.

Eksempel

I sykehusdatasettet kan manglende verdier for nøkkelparametere som blodtrykk fylles inn, og kategoriske variabler som rase kan konverteres til numeriske koder for analyse.

Steg 3. Modellering

Dette steget inkluderer:

  • Valg av modell: valg av én eller flere modeller som er mest egnet for problemet, basert på algoritmens egenskaper og eksperimentelle resultater;
  • Justering av hyperparametere: tilpasning av hyperparametere for å oppnå best mulig ytelse.
Note
Les mer

Tenk på hyperparametere som knotter og brytere på en maskin som du kan justere for å kontrollere hvordan den fungerer. I maskinlæring er disse "knottene og bryterne" innstillinger (verdier) som en dataforsker justerer før de starter treningen av modellen. For eksempel kan hyperparametere inkludere hvor lenge modellen skal trenes eller hvor detaljert treningen skal være.

  • Evaluering av modellen: måling av ytelse på ukjente data.

Eksempel

En klassifiseringsmodell velges for å forutsi pasienters reinnleggelse, noe som passer for binære utfall (reinnlagt eller ikke). Dens hyperparametere justeres for å optimalisere ytelsen. Til slutt gjennomføres evaluering på et separat validerings- eller testsett for å kontrollere hvor godt modellen generaliserer utover treningsdataene.

Steg 4. Distribusjon

Etter å ha oppnådd en finjustert modell med tilfredsstillende ytelse, er neste steg distribusjon. Den distribuerte modellen må kontinuerlig overvåkes, forbedres ved behov, og oppdateres med nye data etter hvert som de blir tilgjengelige. Denne prosessen fører ofte tilbake til Steg 1.

Eksempel

Når modellen forutsier reinnleggelser nøyaktig, blir den integrert i sykehusets databasesystem for å varsle ansatte om pasienter med høy risiko ved innleggelse, noe som forbedrer pasientbehandlingen.

Note
Merk

Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå nærmere inn på dem senere i dette kurset.

Dataprosessering og modellering kan utføres med scikit-learn-biblioteket (importert som sklearn). De følgende kapitlene fokuserer på grunnleggende forbehandlingssteg og oppbygging av pipelines. Modellering introduseres deretter ved bruk av k-nearest neighbors-algoritmen (KNeighborsClassifier i sklearn) som et eksempel. Dette omfatter bygging av modellen, justering av hyperparametere og evaluering av ytelse.

1. Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?

2. Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i en maskinlæringsprosjekt-arbeidsflyt?

question mark

Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?

Select the correct answer

question mark

Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i en maskinlæringsprosjekt-arbeidsflyt?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 3.13

bookArbeidsflyt for maskinlæring

Sveip for å vise menyen

La oss se på arbeidsflyten du følger for å bygge et vellykket maskinlæringsprosjekt.

Steg 1. Skaff dataene

Start med å definere problemet og identifisere hvilke data som kreves. Velg en metrikk for å evaluere ytelsen og bestem hvilket resultat som anses som tilfredsstillende.

Deretter samles dataene inn, ofte fra flere kilder som databaser, og bringes inn i et format som egner seg for behandling i Python.

Hvis dataene allerede er tilgjengelige i en .csv-fil, kan forhåndsbehandlingen starte umiddelbart, og dette steget kan hoppes over.

Eksempel

Et sykehus gir historiske pasientjournaler fra sin database sammen med demografisk informasjon fra en nasjonal helsedatabase, samlet i en CSV-fil. Oppgaven er å forutsi pasientinnleggelser på nytt, med nøyaktighet over 80 % definert som mål for tilfredsstillende ytelse.

Steg 2. Forhåndsbehandle dataene

Dette steget består av:

  • Datavask: håndtering av manglende verdier, ikke-numeriske data, osv.;
  • Utforskende dataanalyse (EDA): analyse og visualisering av datasettet for å finne mønstre og sammenhenger mellom variabler, og generelt for å få innsikt i hvordan treningssettet kan forbedres;
  • Feature engineering: utvelgelse, transformasjon eller opprettelse av nye variabler basert på innsikt fra EDA for å forbedre modellens ytelse.

Eksempel

I sykehusdatasettet kan manglende verdier for nøkkelparametere som blodtrykk fylles inn, og kategoriske variabler som rase kan konverteres til numeriske koder for analyse.

Steg 3. Modellering

Dette steget inkluderer:

  • Valg av modell: valg av én eller flere modeller som er mest egnet for problemet, basert på algoritmens egenskaper og eksperimentelle resultater;
  • Justering av hyperparametere: tilpasning av hyperparametere for å oppnå best mulig ytelse.
Note
Les mer

Tenk på hyperparametere som knotter og brytere på en maskin som du kan justere for å kontrollere hvordan den fungerer. I maskinlæring er disse "knottene og bryterne" innstillinger (verdier) som en dataforsker justerer før de starter treningen av modellen. For eksempel kan hyperparametere inkludere hvor lenge modellen skal trenes eller hvor detaljert treningen skal være.

  • Evaluering av modellen: måling av ytelse på ukjente data.

Eksempel

En klassifiseringsmodell velges for å forutsi pasienters reinnleggelse, noe som passer for binære utfall (reinnlagt eller ikke). Dens hyperparametere justeres for å optimalisere ytelsen. Til slutt gjennomføres evaluering på et separat validerings- eller testsett for å kontrollere hvor godt modellen generaliserer utover treningsdataene.

Steg 4. Distribusjon

Etter å ha oppnådd en finjustert modell med tilfredsstillende ytelse, er neste steg distribusjon. Den distribuerte modellen må kontinuerlig overvåkes, forbedres ved behov, og oppdateres med nye data etter hvert som de blir tilgjengelige. Denne prosessen fører ofte tilbake til Steg 1.

Eksempel

Når modellen forutsier reinnleggelser nøyaktig, blir den integrert i sykehusets databasesystem for å varsle ansatte om pasienter med høy risiko ved innleggelse, noe som forbedrer pasientbehandlingen.

Note
Merk

Noen av begrepene som er nevnt her kan virke ukjente, men vi vil gå nærmere inn på dem senere i dette kurset.

Dataprosessering og modellering kan utføres med scikit-learn-biblioteket (importert som sklearn). De følgende kapitlene fokuserer på grunnleggende forbehandlingssteg og oppbygging av pipelines. Modellering introduseres deretter ved bruk av k-nearest neighbors-algoritmen (KNeighborsClassifier i sklearn) som et eksempel. Dette omfatter bygging av modellen, justering av hyperparametere og evaluering av ytelse.

1. Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?

2. Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i en maskinlæringsprosjekt-arbeidsflyt?

question mark

Hva er hovedformålet med steget «Hent data» i et maskinlæringsprosjekt?

Select the correct answer

question mark

Hvilket av følgende beskriver best viktigheten av steget «Dataprosessering» i en maskinlæringsprosjekt-arbeidsflyt?

Select the correct answer

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 5
some-alt