Bli Kjent Med Datasettet
La oss starte forbehandlingen ved å utforske datasettet. Gjennom hele kurset vil vi bruke penguin dataset. Oppgaven er å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Dataene finnes i filen penguins.csv
. Vi skal laste inn denne filen fra en lenke ved hjelp av funksjonen pd.read_csv()
og se på innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Når vi ser på dette datasettet, kan vi allerede identifisere noen utfordringer som må løses. Disse er:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier automatisk, så vi må fjerne dem (eller erstatte dem med noen verdier, noe som kalles imputering) før vi bruker treningssettet i en modell.
pandas
fyller tomme celler i tabellen med NaN
. De fleste ML-modeller vil gi en feil hvis det finnes minst én NaN
i dataene.
Kategoriske data
Dataene inneholder kategoriske data, som vi allerede vet ikke kan håndteres av maskinlæringsmodeller.
Derfor må vi enkode kategoriske data til numeriske.
Ulike skalaer
'culmen_depth_mm'
-verdiene varierer fra 13.1 til 21.5, mens 'body_mass_g'
-verdiene varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'
-egenskapen som mye viktigere enn 'culmen_depth_mm'
.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Bli Kjent Med Datasettet
Sveip for å vise menyen
La oss starte forbehandlingen ved å utforske datasettet. Gjennom hele kurset vil vi bruke penguin dataset. Oppgaven er å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
og 'sex'
.
Dataene finnes i filen penguins.csv
. Vi skal laste inn denne filen fra en lenke ved hjelp av funksjonen pd.read_csv()
og se på innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Når vi ser på dette datasettet, kan vi allerede identifisere noen utfordringer som må løses. Disse er:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier automatisk, så vi må fjerne dem (eller erstatte dem med noen verdier, noe som kalles imputering) før vi bruker treningssettet i en modell.
pandas
fyller tomme celler i tabellen med NaN
. De fleste ML-modeller vil gi en feil hvis det finnes minst én NaN
i dataene.
Kategoriske data
Dataene inneholder kategoriske data, som vi allerede vet ikke kan håndteres av maskinlæringsmodeller.
Derfor må vi enkode kategoriske data til numeriske.
Ulike skalaer
'culmen_depth_mm'
-verdiene varierer fra 13.1 til 21.5, mens 'body_mass_g'
-verdiene varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'
-egenskapen som mye viktigere enn 'culmen_depth_mm'
.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!