Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Kodning av Kategoriska Variabler | Förbehandling av Data med Scikit-learn
Introduktion till ML med Scikit-learn

bookUtmaning: Kodning av Kategoriska Variabler

För att sammanfatta de tre föregående kapitlen, visas här en tabell som anger vilken encoder som bör användas:

I denna utmaning tillhandahålls penguins dataset (utan saknade värden). Alla kategoriska variabler, inklusive målet ('species'-kolumnen), måste kodas.

Här är en påminnelse om datastruktur:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv') print(df.head())
copy

Observera att 'island' och 'sex' är kategoriska funktioner och 'species' är ett kategoriskt mål.

Uppgift

Swipe to start coding

Du har fått en DataFrame vid namn df som innehåller pingvindata.
Din uppgift är att koda om alla kategoriska variabler så att datan kan användas i en maskininlärningsmodell.

  1. Importera klasserna OneHotEncoder och LabelEncoder från sklearn.preprocessing.
  2. Separera funktionsmatrisen X och målvariabeln y från DataFrame.
  3. Skapa ett OneHotEncoder-objekt och applicera det på kolumnerna 'island' och 'sex' i X.
  4. Ersätt de ursprungliga kategoriska kolumnerna med de kodade versionerna.
  5. Skapa ett LabelEncoder-objekt och applicera det på kolumnen 'species' för att koda målvariabeln y.

Lösning

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 8
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Which encoder should I use for each column in the penguins dataset?

Can you explain the difference between OrdinalEncoder, OneHotEncoder, and LabelEncoder?

What are the next steps to encode the categorical features and target in this dataset?

close

Awesome!

Completion rate improved to 3.13

bookUtmaning: Kodning av Kategoriska Variabler

Svep för att visa menyn

För att sammanfatta de tre föregående kapitlen, visas här en tabell som anger vilken encoder som bör användas:

I denna utmaning tillhandahålls penguins dataset (utan saknade värden). Alla kategoriska variabler, inklusive målet ('species'-kolumnen), måste kodas.

Här är en påminnelse om datastruktur:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv') print(df.head())
copy

Observera att 'island' och 'sex' är kategoriska funktioner och 'species' är ett kategoriskt mål.

Uppgift

Swipe to start coding

Du har fått en DataFrame vid namn df som innehåller pingvindata.
Din uppgift är att koda om alla kategoriska variabler så att datan kan användas i en maskininlärningsmodell.

  1. Importera klasserna OneHotEncoder och LabelEncoder från sklearn.preprocessing.
  2. Separera funktionsmatrisen X och målvariabeln y från DataFrame.
  3. Skapa ett OneHotEncoder-objekt och applicera det på kolumnerna 'island' och 'sex' i X.
  4. Ersätt de ursprungliga kategoriska kolumnerna med de kodade versionerna.
  5. Skapa ett LabelEncoder-objekt och applicera det på kolumnen 'species' för att koda målvariabeln y.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 8
single

single

some-alt