Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Bliv Fortrolig med Datasættet | Forbehandling af Data med Scikit-learn
Introduktion til Maskinlæring med Python

Bliv Fortrolig med Datasættet

Stryg for at vise menuen

Påbegynd forbehandling ved at udforske datasættet. Gennem dette kursus vil penguin-datasættet blive brugt, med opgaven at forudsige arten af en pingvin.

hvilken pingvin

Der er tre mulige muligheder, ofte omtalt som klasser i maskinlæring:

Pingviner

Egenskaberne er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Datasættet er gemt i filen penguins.csv. Det kan indlæses fra et link med funktionen pd.read_csv() for at undersøge indholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Dette datasæt præsenterer flere udfordringer, der skal håndteres:

  • Manglende data;
  • Kategoriske variabler;
  • Forskellige skalaer for features.

Manglende data

De fleste ML-algoritmer kan ikke behandle manglende værdier direkte, så disse skal håndteres før træning. Manglende værdier kan enten fjernes eller imputeres (erstattes med erstatningsværdier).

I pandas repræsenteres tomme celler som NaN. Mange ML-modeller vil give en fejl, hvis datasættet indeholder blot én NaN.

Manglende værdier

Kategoriske data

Datasættet indeholder kategoriske variabler, som maskinlæringsmodeller ikke kan behandle direkte.

Kategoriske kolonner

Kategoriske data skal kodes til numerisk form.

Forskellige skalaer

'culmen_depth_mm' værdier spænder fra 13.1 til 21.5, mens 'body_mass_g' værdier spænder fra 2700 til 6300. På grund af dette kan nogle ML-modeller betragte 'body_mass_g'-egenskaben som meget vigtigere end 'culmen_depth_mm'.

Forskellig skala

Skalering løser dette problem. Det vil blive gennemgået i senere kapitler.

question-icon

Match problemet med en måde at løse det på.

Missing values –
Categorical data –

Different Scales –

Klik eller træk`n`drop elementer og udfyld hullerne

Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 2

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

Sektion 2. Kapitel 2
some-alt