Koneoppimisen Työnkulku
Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.
Vaihe 1. Datan hankinta
Tässä vaiheessa määritellään ongelma ja tarvittava data. Valitaan mittari ja määritellään, mikä tulos on tyydyttävä.
Seuraavaksi kerätään data yhteen, yleensä useista lähteistä (tietokannoista), muodossa, joka soveltuu jatkokäsittelyyn Pythonissa.
Joskus data on jo valmiiksi .csv
-muodossa ja valmis esikäsiteltäväksi, jolloin tämä vaihe voidaan ohittaa.
Esimerkki
Sairaala toimittaa sinulle potilaiden historialliset tiedot tietokannastaan sekä lisätietoja kansallisesta terveysrekisteristä, kaikki koottuna yhteen CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoitukset, käyttäen tarkkuutta (oikeiden ennusteiden prosenttiosuus kaikista ennusteista) yli 80 % tyydyttävän tuloksen mittarina.
Vaihe 2. Datan esikäsittely
Tämä vaihe sisältää:
- Datan puhdistus: puuttuvien arvojen käsittely, ei-numeerisen datan käsittely jne;
- Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten opetusdataa voidaan parantaa;
- Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien piirteiden luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.
Esimerkki
Sairaaladatan tapauksessa voit täydentää puuttuvat arvot tärkeille mittareille, kuten verenpaineelle, ja muuntaa kategoriset muuttujat, kuten rotu, numeerisiksi koodeiksi analyysiä varten.
Vaihe 3. Mallinnus
Tässä vaiheessa:
- Mallin valinta: tässä vaiheessa valitaan yksi tai useampi malli, jotka suoriutuvat parhaiten annetussa ongelmassa. Tämä yhdistää algoritmin ymmärryksen ja kokeilut mallien kanssa, jotta löydetään ongelmaan sopivat vaihtoehdot;
- Hyperparametrien viritys: prosessi, jossa etsitään hyperparametrit, jotka tuottavat parhaan suorituskyvyn;
- Mallin arviointi – mallin suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.
Esimerkki
Valitset tietyn luokittelumallin potilaiden uudelleen sairaalaan joutumisen ennustamiseen, mikä soveltuu hyvin binäärisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Tämän jälkeen säädät mallin hyperparametreja optimoidaksesi sen kokoonpanon. Lopuksi mallin suorituskyky arvioidaan erillisellä validointi-/testijoukolla varmistaaksesi, että se yleistyy tehokkaasti koulutusdatan ulkopuolelle.
Vaihe 4. Käyttöönotto
Kun sinulla on hienosäädetty malli, joka osoittaa hyvää suorituskykyä, voit ottaa sen käyttöön. Työ ei kuitenkaan pääty siihen. Useimmiten haluat myös seurata käyttöön otetun mallin suorituskykyä, etsiä tapoja parantaa sitä ja syöttää uutta dataa sitä mukaa kun sitä kertyy. Tämä palauttaa sinut takaisin vaiheeseen 1.
Esimerkki
Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjautumisen yhteydessä, mikä parantaa potilashoitoa.
Datan esikäsittely- ja mallinnusvaiheet voidaan toteuttaa scikit-learn
-kirjastolla (tuodaan nimellä sklearn
). Tämä on kurssin seuraavien osioiden aiheena.
Opimme joitakin perusesikäsittelyvaiheita ja kuinka rakentaa putkistoja. Tämän jälkeen käsittelemme mallinnusvaihetta käyttäen k-lähimmät naapurit -algoritmia (toteutettu nimellä KNearestClassifier
kirjastossa sklearn
) esimerkkinä mallista. Tämä sisältää mallin rakentamisen, hyperparametrien säätämisen ja mallin arvioinnin.
1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Koneoppimisen Työnkulku
Pyyhkäise näyttääksesi valikon
Tarkastellaan työnkulkua, jonka avulla rakennetaan onnistunut koneoppimisprojekti.
Vaihe 1. Datan hankinta
Tässä vaiheessa määritellään ongelma ja tarvittava data. Valitaan mittari ja määritellään, mikä tulos on tyydyttävä.
Seuraavaksi kerätään data yhteen, yleensä useista lähteistä (tietokannoista), muodossa, joka soveltuu jatkokäsittelyyn Pythonissa.
Joskus data on jo valmiiksi .csv
-muodossa ja valmis esikäsiteltäväksi, jolloin tämä vaihe voidaan ohittaa.
Esimerkki
Sairaala toimittaa sinulle potilaiden historialliset tiedot tietokannastaan sekä lisätietoja kansallisesta terveysrekisteristä, kaikki koottuna yhteen CSV-tiedostoon. Tehtävänä on ennustaa potilaiden uudelleensijoitukset, käyttäen tarkkuutta (oikeiden ennusteiden prosenttiosuus kaikista ennusteista) yli 80 % tyydyttävän tuloksen mittarina.
Vaihe 2. Datan esikäsittely
Tämä vaihe sisältää:
- Datan puhdistus: puuttuvien arvojen käsittely, ei-numeerisen datan käsittely jne;
- Tutkiva data-analyysi (EDA): aineiston analysointi ja visualisointi, jotta löydetään piirteiden välisiä yhteyksiä ja saadaan yleiskuva siitä, miten opetusdataa voidaan parantaa;
- Ominaisuuksien suunnittelu: piirteiden valinta, muuntaminen tai uusien piirteiden luominen EDA:n havaintojen perusteella mallin suorituskyvyn parantamiseksi.
Esimerkki
Sairaaladatan tapauksessa voit täydentää puuttuvat arvot tärkeille mittareille, kuten verenpaineelle, ja muuntaa kategoriset muuttujat, kuten rotu, numeerisiksi koodeiksi analyysiä varten.
Vaihe 3. Mallinnus
Tässä vaiheessa:
- Mallin valinta: tässä vaiheessa valitaan yksi tai useampi malli, jotka suoriutuvat parhaiten annetussa ongelmassa. Tämä yhdistää algoritmin ymmärryksen ja kokeilut mallien kanssa, jotta löydetään ongelmaan sopivat vaihtoehdot;
- Hyperparametrien viritys: prosessi, jossa etsitään hyperparametrit, jotka tuottavat parhaan suorituskyvyn;
- Mallin arviointi – mallin suorituskyvyn mittaaminen aiemmin näkemättömällä datalla.
Esimerkki
Valitset tietyn luokittelumallin potilaiden uudelleen sairaalaan joutumisen ennustamiseen, mikä soveltuu hyvin binäärisiin lopputuloksiin (uudelleen sairaalaan joutunut tai ei). Tämän jälkeen säädät mallin hyperparametreja optimoidaksesi sen kokoonpanon. Lopuksi mallin suorituskyky arvioidaan erillisellä validointi-/testijoukolla varmistaaksesi, että se yleistyy tehokkaasti koulutusdatan ulkopuolelle.
Vaihe 4. Käyttöönotto
Kun sinulla on hienosäädetty malli, joka osoittaa hyvää suorituskykyä, voit ottaa sen käyttöön. Työ ei kuitenkaan pääty siihen. Useimmiten haluat myös seurata käyttöön otetun mallin suorituskykyä, etsiä tapoja parantaa sitä ja syöttää uutta dataa sitä mukaa kun sitä kertyy. Tämä palauttaa sinut takaisin vaiheeseen 1.
Esimerkki
Kun malli ennustaa uudelleensijoitukset tarkasti, se integroidaan sairaalan tietokantajärjestelmään ilmoittamaan henkilökunnalle korkean riskin potilaista sisäänkirjautumisen yhteydessä, mikä parantaa potilashoitoa.
Datan esikäsittely- ja mallinnusvaiheet voidaan toteuttaa scikit-learn
-kirjastolla (tuodaan nimellä sklearn
). Tämä on kurssin seuraavien osioiden aiheena.
Opimme joitakin perusesikäsittelyvaiheita ja kuinka rakentaa putkistoja. Tämän jälkeen käsittelemme mallinnusvaihetta käyttäen k-lähimmät naapurit -algoritmia (toteutettu nimellä KNearestClassifier
kirjastossa sklearn
) esimerkkinä mallista. Tämä sisältää mallin rakentamisen, hyperparametrien säätämisen ja mallin arvioinnin.
1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittelyn" vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!