Tutustuminen Tietoaineistoon
Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään penguin dataset -aineistoa, jonka tavoitteena on ennustaa pingviinin lajia.
Vaihtoehtoja on kolme, joita kutsutaan usein luokiksi koneoppimisessa:
Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.
Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla sisällön tarkastelua varten:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Tämä tietoaineisto sisältää useita ongelmia, jotka on ratkaistava:
- Puuttuvat tiedot;
- Kategoriset muuttujat;
- Eri mittakaavan ominaisuudet.
Puuttuvat tiedot
Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten nämä on käsiteltävä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).
pandas-kirjastossa tyhjät solut esitetään muodossa NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on edes yksi NaN.
Kategorinen data
Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.
Kategorinen data on koodattava numeeriseen muotoon.
Eri mittakaavat
'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin koneoppimismallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'.
Skaalaus ratkaisee tämän ongelman. Tätä käsitellään myöhemmissä luvuissa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Mahtavaa!
Completion arvosana parantunut arvoon 4.55
Tutustuminen Tietoaineistoon
Pyyhkäise näyttääksesi valikon
Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään penguin dataset -aineistoa, jonka tavoitteena on ennustaa pingviinin lajia.
Vaihtoehtoja on kolme, joita kutsutaan usein luokiksi koneoppimisessa:
Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.
Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla sisällön tarkastelua varten:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Tämä tietoaineisto sisältää useita ongelmia, jotka on ratkaistava:
- Puuttuvat tiedot;
- Kategoriset muuttujat;
- Eri mittakaavan ominaisuudet.
Puuttuvat tiedot
Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten nämä on käsiteltävä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).
pandas-kirjastossa tyhjät solut esitetään muodossa NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on edes yksi NaN.
Kategorinen data
Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.
Kategorinen data on koodattava numeeriseen muotoon.
Eri mittakaavat
'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin koneoppimismallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'.
Skaalaus ratkaisee tämän ongelman. Tätä käsitellään myöhemmissä luvuissa.
Kiitos palautteestasi!