Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Bli Kjent Med Datasettet | Forbehandling av Data med Scikit-learn
ML Introduksjon med Scikit-learn

bookBli Kjent Med Datasettet

La oss starte forbehandlingen ved å utforske datasettet. Gjennom hele kurset vil vi bruke penguin dataset. Oppgaven er å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Dataene finnes i filen penguins.csv. Vi skal laste inn denne filen fra en lenke ved hjelp av funksjonen pd.read_csv() og se på innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Når vi ser på dette datasettet, kan vi allerede identifisere noen utfordringer som må løses. Disse er:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende verdier automatisk, så vi må fjerne dem (eller erstatte dem med noen verdier, noe som kalles imputering) før vi bruker treningssettet i en modell.

pandas fyller tomme celler i tabellen med NaN. De fleste ML-modeller vil gi en feil hvis det finnes minst én NaN i dataene.

Kategoriske data

Dataene inneholder kategoriske data, som vi allerede vet ikke kan håndteres av maskinlæringsmodeller.

Derfor må vi enkode kategoriske data til numeriske.

Ulike skalaer

'culmen_depth_mm'-verdiene varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdiene varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en måte å løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 3.13

bookBli Kjent Med Datasettet

Sveip for å vise menyen

La oss starte forbehandlingen ved å utforske datasettet. Gjennom hele kurset vil vi bruke penguin dataset. Oppgaven er å forutsi arten til en pingvin.

Det finnes tre mulige alternativer, ofte omtalt som klasser innen maskinlæring:

Egenskapene er: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' og 'sex'.

Dataene finnes i filen penguins.csv. Vi skal laste inn denne filen fra en lenke ved hjelp av funksjonen pd.read_csv() og se på innholdet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Når vi ser på dette datasettet, kan vi allerede identifisere noen utfordringer som må løses. Disse er:

  • Manglende data;
  • Kategoriske variabler;
  • Ulike skalaer.

Manglende data

De fleste ML-algoritmer kan ikke håndtere manglende verdier automatisk, så vi må fjerne dem (eller erstatte dem med noen verdier, noe som kalles imputering) før vi bruker treningssettet i en modell.

pandas fyller tomme celler i tabellen med NaN. De fleste ML-modeller vil gi en feil hvis det finnes minst én NaN i dataene.

Kategoriske data

Dataene inneholder kategoriske data, som vi allerede vet ikke kan håndteres av maskinlæringsmodeller.

Derfor må vi enkode kategoriske data til numeriske.

Ulike skalaer

'culmen_depth_mm'-verdiene varierer fra 13.1 til 21.5, mens 'body_mass_g'-verdiene varierer fra 2700 til 6300. På grunn av dette kan enkelte ML-modeller vurdere 'body_mass_g'-egenskapen som mye viktigere enn 'culmen_depth_mm'.

Skalering løser dette problemet. Dette vil bli gjennomgått i senere kapitler.

question-icon

Koble problemet til en måte å løse det på.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 2
some-alt