Koneoppimisen Työnkulku
Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.
Vaihe 1. Datan hankinta
Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa välittömästi.
Esimerkki
Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoitukset, tavoitteena yli 80 % tarkkuus.
Vaihe 2. Datan esikäsittely
Tähän vaiheeseen kuuluu:
- Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
- EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
- Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.
Esimerkki
Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.
Vaihe 3. Mallinnus
Tähän vaiheeseen kuuluu:
- Mallin valinta ongelmatyypin ja kokeilujen perusteella;
- Hyperparametrien säätö suorituskyvyn parantamiseksi;
- Mallin arviointi aiemmin näkemättömällä datalla.
Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—esimerkiksi koulutuksen keston tai mallin monimutkaisuuden.
Esimerkki
Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.
Vaihe 4. Käyttöönotto
Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.
Esimerkki
Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.
Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.
Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien koulutus, viritys ja arviointi.
1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Koneoppimisen Työnkulku
Pyyhkäise näyttääksesi valikon
Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.
Vaihe 1. Datan hankinta
Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa välittömästi.
Esimerkki
Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoitukset, tavoitteena yli 80 % tarkkuus.
Vaihe 2. Datan esikäsittely
Tähän vaiheeseen kuuluu:
- Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
- EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
- Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.
Esimerkki
Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.
Vaihe 3. Mallinnus
Tähän vaiheeseen kuuluu:
- Mallin valinta ongelmatyypin ja kokeilujen perusteella;
- Hyperparametrien säätö suorituskyvyn parantamiseksi;
- Mallin arviointi aiemmin näkemättömällä datalla.
Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—esimerkiksi koulutuksen keston tai mallin monimutkaisuuden.
Esimerkki
Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.
Vaihe 4. Käyttöönotto
Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.
Esimerkki
Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.
Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.
Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien koulutus, viritys ja arviointi.
1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?
2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?
Kiitos palautteestasi!