Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Koneoppimisen Työnkulku | Koneoppimisen Käsitteet
ML:n Perusteet Scikit-learnilla

bookKoneoppimisen Työnkulku

Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.

Vaihe 1. Datan hankinta

Tässä vaiheessa määritellään ongelma ja tarvittava data. Valitaan mittari ja määritellään, mikä tulos on tyydyttävä.

Seuraavaksi kerätään data yhteen, yleensä useista lähteistä (tietokannoista), muodossa, joka soveltuu jatkokäsittelyyn Pythonissa.

Joskus data on jo valmiiksi .csv-muodossa ja valmis esikäsiteltäväksi, jolloin tämä vaihe voidaan ohittaa.

Esimerkki

Sairaala toimittaa sinulle potilaiden historialliset tiedot tietokannastaan sekä lisätietoja kansallisesta terveysrekisteristä, kaikki koottuna yhteen CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoitukset, käyttäen tarkkuutta (oikeiden ennusteiden prosenttiosuus kaikista ennusteista) yli 80 % tyydyttävän tuloksen mittarina.

Vaihe 2. Datan esikäsittely

Tämä vaihe sisältää:

  • Datan puhdistus: puuttuvien arvojen käsittely, ei-numeerisen datan käsittely jne;
  • Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten opetusdataa voidaan parantaa;
  • Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien piirteiden luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.

Esimerkki

Sairaaladatan tapauksessa voit täydentää puuttuvat arvot tärkeille mittareille, kuten verenpaineelle, ja muuntaa kategoriset muuttujat, kuten rotu, numeerisiksi koodeiksi analyysiä varten.

Vaihe 3. Mallinnus

Tässä vaiheessa:

  • Mallin valinta: tässä vaiheessa valitaan yksi tai useampi malli, jotka suoriutuvat parhaiten annetussa ongelmassa. Tämä yhdistää algoritmin ymmärryksen ja kokeilut mallien kanssa, jotta löydetään ongelmaan sopivat vaihtoehdot;
  • Hyperparametrien viritys: prosessi, jossa etsitään hyperparametrit, jotka tuottavat parhaan suorituskyvyn;
  • Mallin arviointi – mallin suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.

Esimerkki

Valitset tietyn luokittelumallin potilaiden uudelleen sairaalaan joutumisen ennustamiseen, mikä soveltuu hyvin binäärisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Tämän jälkeen säädät mallin hyperparametreja optimoidaksesi sen kokoonpanon. Lopuksi mallin suorituskyky arvioidaan erillisellä validointi-/testijoukolla varmistaaksesi, että se yleistyy tehokkaasti koulutusdatan ulkopuolelle.

Vaihe 4. Käyttöönotto

Kun sinulla on hienosäädetty malli, joka osoittaa hyvää suorituskykyä, voit ottaa sen käyttöön. Työ ei kuitenkaan pääty siihen. Useimmiten haluat myös seurata käyttöön otetun mallin suorituskykyä, etsiä tapoja parantaa sitä ja syöttää uutta dataa sitä mukaa kun sitä kertyy. Tämä palauttaa sinut takaisin vaiheeseen 1.

Esimerkki

Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjautumisen yhteydessä, mikä parantaa potilashoitoa.

Datan esikäsittely- ja mallinnusvaiheet voidaan toteuttaa scikit-learn-kirjastolla (tuodaan nimellä sklearn). Tämä on kurssin seuraavien osioiden aiheena.

Opimme joitakin perusesikäsittelyvaiheita ja kuinka rakentaa putkistoja. Tämän jälkeen käsittelemme mallinnusvaihetta käyttäen k-lähimmät naapurit -algoritmia (toteutettu nimellä KNearestClassifier kirjastossa sklearn) esimerkkinä mallista. Tämä sisältää mallin rakentamisen, hyperparametrien säätämisen ja mallin arvioinnin.

1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookKoneoppimisen Työnkulku

Pyyhkäise näyttääksesi valikon

Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.

Vaihe 1. Datan hankinta

Tässä vaiheessa määritellään ongelma ja tarvittava data. Valitaan mittari ja määritellään, mikä tulos on tyydyttävä.

Seuraavaksi kerätään data yhteen, yleensä useista lähteistä (tietokannoista), muodossa, joka soveltuu jatkokäsittelyyn Pythonissa.

Joskus data on jo valmiiksi .csv-muodossa ja valmis esikäsiteltäväksi, jolloin tämä vaihe voidaan ohittaa.

Esimerkki

Sairaala toimittaa sinulle potilaiden historialliset tiedot tietokannastaan sekä lisätietoja kansallisesta terveysrekisteristä, kaikki koottuna yhteen CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoitukset, käyttäen tarkkuutta (oikeiden ennusteiden prosenttiosuus kaikista ennusteista) yli 80 % tyydyttävän tuloksen mittarina.

Vaihe 2. Datan esikäsittely

Tämä vaihe sisältää:

  • Datan puhdistus: puuttuvien arvojen käsittely, ei-numeerisen datan käsittely jne;
  • Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten opetusdataa voidaan parantaa;
  • Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien piirteiden luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.

Esimerkki

Sairaaladatan tapauksessa voit täydentää puuttuvat arvot tärkeille mittareille, kuten verenpaineelle, ja muuntaa kategoriset muuttujat, kuten rotu, numeerisiksi koodeiksi analyysiä varten.

Vaihe 3. Mallinnus

Tässä vaiheessa:

  • Mallin valinta: tässä vaiheessa valitaan yksi tai useampi malli, jotka suoriutuvat parhaiten annetussa ongelmassa. Tämä yhdistää algoritmin ymmärryksen ja kokeilut mallien kanssa, jotta löydetään ongelmaan sopivat vaihtoehdot;
  • Hyperparametrien viritys: prosessi, jossa etsitään hyperparametrit, jotka tuottavat parhaan suorituskyvyn;
  • Mallin arviointi – mallin suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.

Esimerkki

Valitset tietyn luokittelumallin potilaiden uudelleen sairaalaan joutumisen ennustamiseen, mikä soveltuu hyvin binäärisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Tämän jälkeen säädät mallin hyperparametreja optimoidaksesi sen kokoonpanon. Lopuksi mallin suorituskyky arvioidaan erillisellä validointi-/testijoukolla varmistaaksesi, että se yleistyy tehokkaasti koulutusdatan ulkopuolelle.

Vaihe 4. Käyttöönotto

Kun sinulla on hienosäädetty malli, joka osoittaa hyvää suorituskykyä, voit ottaa sen käyttöön. Työ ei kuitenkaan pääty siihen. Useimmiten haluat myös seurata käyttöön otetun mallin suorituskykyä, etsiä tapoja parantaa sitä ja syöttää uutta dataa sitä mukaa kun sitä kertyy. Tämä palauttaa sinut takaisin vaiheeseen 1.

Esimerkki

Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjautumisen yhteydessä, mikä parantaa potilashoitoa.

Datan esikäsittely- ja mallinnusvaiheet voidaan toteuttaa scikit-learn-kirjastolla (tuodaan nimellä sklearn). Tämä on kurssin seuraavien osioiden aiheena.

Opimme joitakin perusesikäsittelyvaiheita ja kuinka rakentaa putkistoja. Tämän jälkeen käsittelemme mallinnusvaihetta käyttäen k-lähimmät naapurit -algoritmia (toteutettu nimellä KNearestClassifier kirjastossa sklearn) esimerkkinä mallista. Tämä sisältää mallin rakentamisen, hyperparametrien säätämisen ja mallin arvioinnin.

1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt