Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Bli Kjent Med Datasettet | Seksjon
Grunnleggende Maskinlæring

bookBli Kjent Med Datasettet

Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin dataset bli brukt, med oppgaven å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasettet har flere utfordringer som må håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer på egenskaper.

Manglende data

De fleste maskinlæringsalgoritmer kan ikke behandle manglende verdier direkte, så disse må håndteres før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med alternative verdier).

I pandas representeres tomme celler som NaN. Mange maskinlæringsmodeller vil gi en feil hvis datasettet inneholder selv én NaN.

Kategoriske data

Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data må kodes til numerisk form.

Ulike skalaer

'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en løsning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 7

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

bookBli Kjent Med Datasettet

Sveip for å vise menyen

Start forbehandling ved å utforske datasettet. Gjennom dette kurset vil penguin dataset bli brukt, med oppgaven å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasettet er lagret i filen penguins.csv. Det kan lastes inn fra en lenke med funksjonen pd.read_csv() for å undersøke innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Dette datasettet har flere utfordringer som må håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer på egenskaper.

Manglende data

De fleste maskinlæringsalgoritmer kan ikke behandle manglende verdier direkte, så disse må håndteres før trening. Manglende verdier kan enten fjernes eller imputeres (erstattes med alternative verdier).

I pandas representeres tomme celler som NaN. Mange maskinlæringsmodeller vil gi en feil hvis datasettet inneholder selv én NaN.

Kategoriske data

Datasettet inneholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske data må kodes til numerisk form.

Ulike skalaer

'culmen_depth_mm'-verdier varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdier varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en løsning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 7
some-alt