Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Koneoppimisen Työnkulku | Koneoppimisen Käsitteet
Quizzes & Challenges
Quizzes
Challenges
/
Johdatus koneoppimiseen Pythonilla

bookKoneoppimisen Työnkulku

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa välittömästi.

Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoitukset, tavoitteena yli 80 % tarkkuus.

Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

  • Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
  • EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
  • Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

Vaihe 3. Mallinnus

Tähän vaiheeseen kuuluu:

  • Mallin valinta ongelmatyypin ja kokeilujen perusteella;
  • Hyperparametrien säätö suorituskyvyn parantamiseksi;
  • Mallin arviointi aiemmin näkemättömällä datalla.
Note
Lisätietoa

Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—esimerkiksi koulutuksen keston tai mallin monimutkaisuuden.

Esimerkki

Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.

Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.

Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien koulutus, viritys ja arviointi.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookKoneoppimisen Työnkulku

Pyyhkäise näyttääksesi valikon

Tarkastellaan työnkulkua, jonka avulla rakennetaan menestyksekäs koneoppimisprojekti.

Vaihe 1. Datan hankinta

Määrittele ongelma, valitse suorituskykymittari ja päätä, mikä tulos on riittävän hyvä. Kerää tarvittava data saatavilla olevista lähteistä ja muunna se Pythonille sopivaan muotoon. Jos data on jo olemassa CSV-tiedostossa, esikäsittely voidaan aloittaa välittömästi.

Esimerkki

Sairaala kokoaa potilastiedot ja demografiset tiedot CSV-tiedostoon. Tavoitteena on ennustaa uudelleensijoitukset, tavoitteena yli 80 % tarkkuus.

Vaihe 2. Datan esikäsittely

Tähän vaiheeseen kuuluu:

  • Datan puhdistus: puuttuvien arvojen ja ei-numeeristen syötteiden käsittely;
  • EDA: datan analysointi ja visualisointi suhteiden ymmärtämiseksi ja ongelmien havaitsemiseksi;
  • Ominaisuuksien suunnittelu: sellaisten ominaisuuksien valinta tai luominen, jotka parantavat mallin suorituskykyä.

Esimerkki

Puuttuvat arvot (esim. verenpaine) täydennetään ja kategoriset ominaisuudet (esim. rotu) muunnetaan numeeriseen muotoon.

Vaihe 3. Mallinnus

Tähän vaiheeseen kuuluu:

  • Mallin valinta ongelmatyypin ja kokeilujen perusteella;
  • Hyperparametrien säätö suorituskyvyn parantamiseksi;
  • Mallin arviointi aiemmin näkemättömällä datalla.
Note
Lisätietoa

Hyperparametrit ovat säädettäviä asetuksia, jotka määrittävät mallin koulutuksen kulun—esimerkiksi koulutuksen keston tai mallin monimutkaisuuden.

Esimerkki

Luokittelumalli valitaan ennustamaan uudelleensijoittamista (kyllä/ei). Säätämisen jälkeen mallia arvioidaan validointi-/testijoukolla yleistettävyyden tarkistamiseksi.

Vaihe 4. Käyttöönotto

Kun malli toimii hyvin, se otetaan käyttöön todellisissa järjestelmissä. Mallia tulee seurata, päivittää uudella datalla ja parantaa ajan myötä, usein aloittaen sykli uudelleen vaiheesta 1.

Esimerkki

Malli integroidaan sairaalan järjestelmään tunnistamaan korkean riskin potilaat sisäänkirjautumisen yhteydessä, mikä auttaa henkilökuntaa toimimaan ajoissa.

Note
Huomio

Jotkut tässä mainituista termeistä saattavat kuulostaa vierailta, mutta käsittelemme niitä tarkemmin myöhemmin tällä kurssilla.

Datan esikäsittely ja mallinnus voidaan toteuttaa scikit-learn-kirjastolla. Seuraavissa luvuissa esitellään esikäsittelyprosessit ja -putket sekä mallinnus käyttäen k-lähimmän naapurin menetelmää (KNeighborsClassifier), mukaan lukien koulutus, viritys ja arviointi.

1. Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

2. Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

question mark

Mikä on "Hanki data" -vaiheen ensisijainen tarkoitus koneoppimisprojektissa?

Select the correct answer

question mark

Mikä seuraavista kuvaa parhaiten "Datan esikäsittely" -vaiheen merkitystä koneoppimisprojektin työnkulussa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 1. Luku 5
some-alt