Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Getting Familiar with Dataset | Datan Esikäsittely Scikit-learnilla
Johdatus koneoppimiseen Pythonilla

Getting Familiar with Dataset

Pyyhkäise näyttääksesi valikon

Esikäsittely aloitetaan tutustumalla aineistoon. Tämän kurssin aikana käytetään penguin dataset -aineistoa, jonka tavoitteena on ennustaa pingviinin lajia.

mikä pingviini

Vaihtoehtoja on kolme, joita kutsutaan koneoppimisessa usein luokiksi:

Pingviinit

Ominaisuudet ovat: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' ja 'sex'.

Aineisto on tallennettu tiedostoon penguins.csv. Sen voi ladata linkistä pd.read_csv() -funktiolla tietojen tarkastelua varten:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Tässä tietoaineistossa on useita ongelmia, jotka tulee ratkaista:

  • Puuttuvat tiedot;
  • Kategoriset muuttujat;
  • Eriävät piirteiden mittakaavat.

Puuttuvat tiedot

Useimmat koneoppimisalgoritmit eivät pysty käsittelemään puuttuvia arvoja suoraan, joten ne on käsiteltävä ennen mallin koulutusta. Puuttuvat arvot voidaan joko poistaa tai imputoida (korvata sijaisarvoilla).

pandas-kirjastossa tyhjät solut esitetään muodossa NaN. Monet koneoppimismallit aiheuttavat virheen, jos tietoaineistossa on yksikin NaN.

Puuttuvat arvot

Kategoriset tiedot

Aineisto sisältää kategorisia muuttujia, joita koneoppimismallit eivät pysty käsittelemään suoraan.

Kategoriset sarakkeet

Kategoriset tiedot on koodattava numeeriseen muotoon.

Eri mittakaavat

'culmen_depth_mm'-arvot vaihtelevat välillä 13.1–21.5, kun taas 'body_mass_g'-arvot vaihtelevat välillä 2700–6300. Tämän vuoksi jotkin koneoppimismallit saattavat pitää 'body_mass_g'-ominaisuutta paljon tärkeämpänä kuin 'culmen_depth_mm'-ominaisuutta.

Eri mittakaava

Skaalaus ratkaisee tämän ongelman. Siihen palataan myöhemmissä luvuissa.

question-icon

Yhdistä ongelma ja sen ratkaisukeino.

Missing values –
Categorical data –

Different Scales –

Klikkaa tai vedä ja pudota esineitä ja täytä tyhjät kohdat

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 2
some-alt