Introduktion til Datasættet
Lad os begynde forbehandlingen ved at udforske datasættet. Gennem hele kurset vil vi bruge penguin-datasættet. Opgaven er at forudsige en pingvinarts tilhørsforhold.
Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:
Og egenskaberne er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Dataene findes i filen penguins.csv
. Vi indlæser denne fil fra et link ved hjælp af funktionen pd.read_csv()
og ser på indholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ved at se på dette datasæt kan vi allerede identificere nogle problemer, der skal løses. Disse er:
- Manglende data;
- Kategoriske variabler;
- Forskellige skalaer.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende værdier automatisk, så vi skal fjerne dem (eller erstatte dem med nogle værdier, hvilket kaldes imputering) før træningssættet gives til en model.
pandas
udfylder tomme celler i tabellen med NaN
. De fleste ML-modeller vil give en fejl, hvis der findes mindst én NaN
i dataene.
Kategoriske data
Dataene indeholder kategoriske data, som vi allerede ved ikke kan håndteres af maskinlæringsmodeller.
Derfor skal vi kode kategoriske data til numeriske.
Forskellige skalaer
'culmen_depth_mm'
-værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'
-værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'
-egenskaben som meget vigtigere end 'culmen_depth_mm'
.
Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat
Awesome!
Completion rate improved to 3.13
Introduktion til Datasættet
Stryg for at vise menuen
Lad os begynde forbehandlingen ved at udforske datasættet. Gennem hele kurset vil vi bruge penguin-datasættet. Opgaven er at forudsige en pingvinarts tilhørsforhold.
Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:
Og egenskaberne er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Dataene findes i filen penguins.csv
. Vi indlæser denne fil fra et link ved hjælp af funktionen pd.read_csv()
og ser på indholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ved at se på dette datasæt kan vi allerede identificere nogle problemer, der skal løses. Disse er:
- Manglende data;
- Kategoriske variabler;
- Forskellige skalaer.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende værdier automatisk, så vi skal fjerne dem (eller erstatte dem med nogle værdier, hvilket kaldes imputering) før træningssættet gives til en model.
pandas
udfylder tomme celler i tabellen med NaN
. De fleste ML-modeller vil give en fejl, hvis der findes mindst én NaN
i dataene.
Kategoriske data
Dataene indeholder kategoriske data, som vi allerede ved ikke kan håndteres af maskinlæringsmodeller.
Derfor skal vi kode kategoriske data til numeriske.
Forskellige skalaer
'culmen_depth_mm'
-værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'
-værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'
-egenskaben som meget vigtigere end 'culmen_depth_mm'
.
Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.
Tak for dine kommentarer!