Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Koneoppimisen Työnkulku | Osio
Koneoppimisen Perusteet

bookKoneoppimisen Työnkulku

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa heti.

Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoituksia, tavoitellen yli 80 % tarkkuutta.

Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

  • Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
  • EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
  • Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

Vaihe 3. Mallinnus

Tähän vaiheeseen kuuluu:

  • Mallin valinta ongelmatyypin ja kokeilujen perusteella;
  • Hyperparametrien säätö suorituskyvyn parantamiseksi;
  • Mallin arviointi näkemättömällä datalla.
Note
Lisätietoa

Hyperparametrit ovat säädettäviä ohjaimia, jotka määrittävät, miten malli oppii—esimerkiksi koulutuksen kesto tai mallin monimutkaisuus.

Esimerkki

Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.

Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.

Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, auttaen henkilökuntaa toimimaan ajoissa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien opetus, viritys ja arviointi.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

bookKoneoppimisen Työnkulku

Pyyhkäise näyttääksesi valikon

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa heti.

Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoituksia, tavoitellen yli 80 % tarkkuutta.

Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

  • Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
  • EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
  • Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

Vaihe 3. Mallinnus

Tähän vaiheeseen kuuluu:

  • Mallin valinta ongelmatyypin ja kokeilujen perusteella;
  • Hyperparametrien säätö suorituskyvyn parantamiseksi;
  • Mallin arviointi näkemättömällä datalla.
Note
Lisätietoa

Hyperparametrit ovat säädettäviä ohjaimia, jotka määrittävät, miten malli oppii—esimerkiksi koulutuksen kesto tai mallin monimutkaisuus.

Esimerkki

Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.

Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.

Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, auttaen henkilökuntaa toimimaan ajoissa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien opetus, viritys ja arviointi.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt