Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Bekanta Sig Med Datasetet | Förbehandling av Data med Scikit-learn
Introduktion till ML med Scikit-learn

bookBekanta Sig Med Datasetet

Påbörja förbehandling genom att utforska datasettet. Under denna kurs kommer penguin dataset att användas, med uppgiften att förutsäga arten av en pingvin.

Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:

Egenskaperna är: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' och 'sex'.

Datasettet är sparat i filen penguins.csv. Det kan laddas från en länk med funktionen pd.read_csv() för att undersöka dess innehåll:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Denna datamängd har flera problem som behöver åtgärdas:

  • Saknade data;
  • Kategoriska variabler;
  • Olika skalor för variabler.

Saknade data

De flesta ML-algoritmer kan inte hantera saknade värden direkt, så dessa måste åtgärdas innan träning. Saknade värden kan antingen tas bort eller imputeras (ersättas med substitutvärden).

I pandas representeras tomma celler som NaN. Många ML-modeller kommer att ge ett fel om datamängden innehåller ens ett enda NaN.

Kategoriska data

Datasettet innehåller kategoriska variabler, vilka maskininlärningsmodeller inte kan bearbeta direkt.

Kategoriska data måste kodas till numerisk form.

Olika skalor

'culmen_depth_mm' värden sträcker sig från 13.1 till 21.5, medan 'body_mass_g' värden sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta 'body_mass_g'-egenskapen som mycket viktigare än 'culmen_depth_mm'.

Skalning löser detta problem. Det kommer att behandlas i senare kapitel.

question-icon

Matcha problemet med en lösning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.13

bookBekanta Sig Med Datasetet

Svep för att visa menyn

Påbörja förbehandling genom att utforska datasettet. Under denna kurs kommer penguin dataset att användas, med uppgiften att förutsäga arten av en pingvin.

Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:

Egenskaperna är: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' och 'sex'.

Datasettet är sparat i filen penguins.csv. Det kan laddas från en länk med funktionen pd.read_csv() för att undersöka dess innehåll:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Denna datamängd har flera problem som behöver åtgärdas:

  • Saknade data;
  • Kategoriska variabler;
  • Olika skalor för variabler.

Saknade data

De flesta ML-algoritmer kan inte hantera saknade värden direkt, så dessa måste åtgärdas innan träning. Saknade värden kan antingen tas bort eller imputeras (ersättas med substitutvärden).

I pandas representeras tomma celler som NaN. Många ML-modeller kommer att ge ett fel om datamängden innehåller ens ett enda NaN.

Kategoriska data

Datasettet innehåller kategoriska variabler, vilka maskininlärningsmodeller inte kan bearbeta direkt.

Kategoriska data måste kodas till numerisk form.

Olika skalor

'culmen_depth_mm' värden sträcker sig från 13.1 till 21.5, medan 'body_mass_g' värden sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta 'body_mass_g'-egenskapen som mycket viktigare än 'culmen_depth_mm'.

Skalning löser detta problem. Det kommer att behandlas i senare kapitel.

question-icon

Matcha problemet med en lösning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2
some-alt