Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Introduktion til Datasættet | Forbehandling af Data med Scikit-learn
ML Introduktion med Scikit-learn

bookIntroduktion til Datasættet

Lad os begynde forbehandlingen ved at udforske datasættet. Gennem hele kurset vil vi bruge penguin-datasættet. Opgaven er at forudsige en pingvinarts tilhørsforhold.

Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:

Og egenskaberne er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Dataene findes i filen penguins.csv. Vi indlæser denne fil fra et link ved hjælp af funktionen pd.read_csv() og ser på indholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ved at se på dette datasæt kan vi allerede identificere nogle problemer, der skal løses. Disse er:

  • Manglende data;
  • Kategoriske variabler;
  • Forskellige skalaer.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende værdier automatisk, så vi skal fjerne dem (eller erstatte dem med nogle værdier, hvilket kaldes imputering) før træningssættet gives til en model.

pandas udfylder tomme celler i tabellen med NaN. De fleste ML-modeller vil give en fejl, hvis der findes mindst én NaN i dataene.

Kategoriske data

Dataene indeholder kategoriske data, som vi allerede ved ikke kan håndteres af maskinlæringsmodeller.

Derfor skal vi kode kategoriske data til numeriske.

Forskellige skalaer

'culmen_depth_mm'-værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'-værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'-egenskaben som meget vigtigere end 'culmen_depth_mm'.

Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.

question-icon

Match problemet med en måde at løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Awesome!

Completion rate improved to 3.13

bookIntroduktion til Datasættet

Stryg for at vise menuen

Lad os begynde forbehandlingen ved at udforske datasættet. Gennem hele kurset vil vi bruge penguin-datasættet. Opgaven er at forudsige en pingvinarts tilhørsforhold.

Der er tre mulige muligheder, ofte omtalt som klasser inden for maskinlæring:

Og egenskaberne er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Dataene findes i filen penguins.csv. Vi indlæser denne fil fra et link ved hjælp af funktionen pd.read_csv() og ser på indholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ved at se på dette datasæt kan vi allerede identificere nogle problemer, der skal løses. Disse er:

  • Manglende data;
  • Kategoriske variabler;
  • Forskellige skalaer.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende værdier automatisk, så vi skal fjerne dem (eller erstatte dem med nogle værdier, hvilket kaldes imputering) før træningssættet gives til en model.

pandas udfylder tomme celler i tabellen med NaN. De fleste ML-modeller vil give en fejl, hvis der findes mindst én NaN i dataene.

Kategoriske data

Dataene indeholder kategoriske data, som vi allerede ved ikke kan håndteres af maskinlæringsmodeller.

Derfor skal vi kode kategoriske data til numeriske.

Forskellige skalaer

'culmen_depth_mm'-værdier spænder fra 13.1 til 21.5, mens 'body_mass_g'-værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'-egenskaben som meget vigtigere end 'culmen_depth_mm'.

Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.

question-icon

Match problemet med en måde at løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2
some-alt