Bli Kjent Med Datasettet
Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.
Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasettet har flere utfordringer som må håndteres:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer på egenskaper.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med alternative verdier).
I pandas representeres tomme celler som NaN. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN.
Kategoriske data
Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data må kodes om til numerisk form.
Ulike skalaer
'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår
Awesome!
Completion rate improved to 3.13
Bli Kjent Med Datasettet
Sveip for å vise menyen
Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin-datasettet bli brukt, med oppgaven å forutsi arten til en pingvin.
Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:
Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.
Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Dette datasettet har flere utfordringer som må håndteres:
- Manglende data;
- Kategoriske variabler;
- Ulike skalaer på egenskaper.
Manglende data
De fleste ML-algoritmer kan ikke håndtere manglende verdier direkte, så disse må behandles før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med alternative verdier).
I pandas representeres tomme celler som NaN. Mange ML-modeller vil gi en feil hvis datasettet inneholder selv én NaN.
Kategoriske data
Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.
Kategoriske data må kodes om til numerisk form.
Ulike skalaer
'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.
Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.
Takk for tilbakemeldingene dine!