Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Att Bekanta Sig Med Datasetet | Förbehandling av Data med Scikit-learn
ML-Introduktion med Scikit-learn

bookAtt Bekanta Sig Med Datasetet

Vi börjar förbehandlingen genom att utforska datasetet. Under hela kursen kommer vi att använda penguin-datasetet. Uppgiften är att förutsäga en pingvinarts tillhörighet.

Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:

Och egenskaperna är: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' och 'sex'.

Datan finns i filen penguins.csv. Vi kommer att läsa in denna fil från en länk med funktionen pd.read_csv() och titta på innehållet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

När vi granskar denna datamängd kan vi redan identifiera vissa problem som behöver åtgärdas. Dessa är:

  • Saknade data;
  • Kategoriska variabler;
  • Olika skalor.

Saknade data

De flesta ML-algoritmer kan inte hantera saknade värden automatiskt, så vi behöver ta bort dem (eller ersätta dem med vissa värden, vilket kallas imputering) innan vi matar in träningsuppsättningen i en modell.

pandas fyller tomma celler i tabellen med NaN. De flesta ML-modeller kommer att ge ett fel om det finns minst ett NaN i datan.

Kategoriska data

Datan innehåller kategoriska data, vilket vi redan vet inte kan hanteras av maskininlärningsmodeller.

Därför behöver vi koda om kategoriska data till numeriska.

Olika skalor

'culmen_depth_mm'-värden sträcker sig från 13.1 till 21.5, medan 'body_mass_g'-värden sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta 'body_mass_g'-egenskapen som mycket viktigare än 'culmen_depth_mm'.

Skalning löser detta problem. Det kommer att behandlas i senare kapitel.

question-icon

Matcha problemet med en lösning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Awesome!

Completion rate improved to 3.13

bookAtt Bekanta Sig Med Datasetet

Svep för att visa menyn

Vi börjar förbehandlingen genom att utforska datasetet. Under hela kursen kommer vi att använda penguin-datasetet. Uppgiften är att förutsäga en pingvinarts tillhörighet.

Det finns tre möjliga alternativ, ofta kallade klasser inom maskininlärning:

Och egenskaperna är: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' och 'sex'.

Datan finns i filen penguins.csv. Vi kommer att läsa in denna fil från en länk med funktionen pd.read_csv() och titta på innehållet:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

När vi granskar denna datamängd kan vi redan identifiera vissa problem som behöver åtgärdas. Dessa är:

  • Saknade data;
  • Kategoriska variabler;
  • Olika skalor.

Saknade data

De flesta ML-algoritmer kan inte hantera saknade värden automatiskt, så vi behöver ta bort dem (eller ersätta dem med vissa värden, vilket kallas imputering) innan vi matar in träningsuppsättningen i en modell.

pandas fyller tomma celler i tabellen med NaN. De flesta ML-modeller kommer att ge ett fel om det finns minst ett NaN i datan.

Kategoriska data

Datan innehåller kategoriska data, vilket vi redan vet inte kan hanteras av maskininlärningsmodeller.

Därför behöver vi koda om kategoriska data till numeriska.

Olika skalor

'culmen_depth_mm'-värden sträcker sig från 13.1 till 21.5, medan 'body_mass_g'-värden sträcker sig från 2700 till 6300. På grund av detta kan vissa ML-modeller betrakta 'body_mass_g'-egenskapen som mycket viktigare än 'culmen_depth_mm'.

Skalning löser detta problem. Det kommer att behandlas i senare kapitel.

question-icon

Matcha problemet med en lösning.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 2
some-alt