Tutustuminen Tietoaineistoon
Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään penguin dataset -aineistoa, jonka tavoitteena on ennustaa pingviinin lajia.
Mahdollisia vaihtoehtoja on kolme, joita kutsutaan usein luokiksi koneoppimisessa:
Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.
Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla sisällön tarkastelua varten:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Tässä tietoaineistossa on useita ongelmia, jotka on ratkaistava:
- Puuttuvat tiedot;
- Kategoriset muuttujat;
- Eri mittakaavat ominaisuuksissa.
Puuttuvat tiedot
Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten nämä on käsiteltävä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).
pandas-kirjastossa tyhjät solut esitetään muodossa NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on edes yksi NaN.
Kategoriset tiedot
Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.
Kategoriset tiedot täytyy koodata numeeriseen muotoon.
Eri mittakaavat
'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin ML-mallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'.
Skaalaus ratkaisee tämän ongelman. Tätä käsitellään myöhemmissä luvuissa.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
What are the three classes of penguins in the dataset?
How do I handle missing data in the penguin dataset?
Can you explain how to encode categorical variables for machine learning?
Awesome!
Completion rate improved to 3.13
Tutustuminen Tietoaineistoon
Pyyhkäise näyttääksesi valikon
Aloita esikäsittely tutustumalla aineistoon. Tämän kurssin aikana käytetään penguin dataset -aineistoa, jonka tavoitteena on ennustaa pingviinin lajia.
Mahdollisia vaihtoehtoja on kolme, joita kutsutaan usein luokiksi koneoppimisessa:
Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.
Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla sisällön tarkastelua varten:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Tässä tietoaineistossa on useita ongelmia, jotka on ratkaistava:
- Puuttuvat tiedot;
- Kategoriset muuttujat;
- Eri mittakaavat ominaisuuksissa.
Puuttuvat tiedot
Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten nämä on käsiteltävä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).
pandas-kirjastossa tyhjät solut esitetään muodossa NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on edes yksi NaN.
Kategoriset tiedot
Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.
Kategoriset tiedot täytyy koodata numeeriseen muotoon.
Eri mittakaavat
'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin ML-mallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'.
Skaalaus ratkaisee tämän ongelman. Tätä käsitellään myöhemmissä luvuissa.
Kiitos palautteestasi!