Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Koneoppimisen Työnkulku | Koneoppimisen Käsitteet
Johdatus koneoppimiseen Pythonilla

Koneoppimisen Työnkulku

Pyyhkäise näyttääksesi valikon

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa heti.

Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoitukset, tavoitteena yli 80 % tarkkuus.

Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

  • Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
  • EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
  • Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

Vaihe 3. Mallintaminen

Tähän vaiheeseen kuuluu:

  • Mallin valinta ongelmatyypin ja kokeilujen perusteella;
  • Hyperparametrien säätäminen suorituskyvyn parantamiseksi;
  • Mallin arviointi näkemättömällä datalla.
Note
Lisätietoa

Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—kuten koulutuksen keston tai mallin monimutkaisuuden.

Esimerkki

Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.

Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.

Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.

ML-työnkulku
Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket, minkä jälkeen käsitellään mallinnusta käyttäen k-lähimmät naapurit (KNeighborsClassifier), mukaan lukien mallin opetus, viritys ja arviointi.

1. Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Data preprocessing" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Get the data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Valitse oikea vastaus

question mark

Mikä seuraavista kuvaa parhaiten "Data preprocessing" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 5
some-alt