Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Udfordring: Forbehandling af Datasættet | Kernekoncepter
Klyngeanalyse med Python
Sektion 2. Kapitel 6
single

single

bookUdfordring: Forbehandling af Datasættet

Stryg for at vise menuen

Opgave

Swipe to start coding

Du får et syntetisk datasæt gemt i variablen data. Din opgave er at håndtere manglende værdier og korrekt kode kategoriske variable.

Følg disse trin:

  • Erstat manglende værdier i kolonnen 'Age' med gennemsnitsværdien for denne kolonne. Overskriv den oprindelige kolonne med resultatet.
  • Opret en instans af OneHotEncoder og gem den i variablen city_encoder. Sørg for at angive drop='first' for at undgå dummyvariabel-fælden.
  • Som standard returnerer denne encoder en sparsom matrix. For at gøre den kompatibel med Pandas senere, skal du sætte parameteren sparse_output=False (eller sparse=False for ældre versioner) under initialisering, ELLER tilføje .toarray() når du transformerer dataene.
  • Kod værdierne i kolonnen 'City' ved hjælp af city_encoder.fit_transform() og gem det resulterende array i variablen city_encoded.
  • Opret en instans af OrdinalEncoder og gem den i variablen income_encoder. Da dataene har en naturlig rangorden, skal du eksplicit definere rækkefølgen ved hjælp af parameteren categories (bemærk at 'Low' < 'Middle' < 'High').
  • Kod værdierne i kolonnen 'Income' ved hjælp af income_encoder og overskriv den oprindelige kolonne 'Income' med resultatet.

Løsning

Switch to desktopSkift til skrivebord for at øve i den virkelige verdenFortsæt der, hvor du er, med en af nedenstående muligheder
Var alt klart?

Hvordan kan vi forbedre det?

Tak for dine kommentarer!

Sektion 2. Kapitel 6
single

single

Spørg AI

expand

Spørg AI

ChatGPT

Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat

some-alt