Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Utfordring: Forbehandling av Datasettet | Kjernebegreper
Klyngeanalyse med Python
Seksjon 2. Kapittel 6
single

single

bookUtfordring: Forbehandling av Datasettet

Sveip for å vise menyen

Oppgave

Swipe to start coding

Du har fått et syntetisk datasett lagret i variabelen data. Oppgaven din er å håndtere manglende verdier og kode kategoriske variabler på riktig måte.

Følg disse trinnene:

  • Erstatt manglende verdier i kolonnen 'Age' med gjennomsnittsverdien for denne kolonnen. Overskriv den opprinnelige kolonnen med resultatet.
  • Opprett en instans av OneHotEncoder og lagre den i variabelen city_encoder. Sørg for å angi drop='first' for å unngå dummyvariabel-fellen.
    • Som standard returnerer denne encoder-en en sparsmatrise. For å gjøre den kompatibel med Pandas senere, sett parameteren sparse_output=False (eller sparse=False for eldre versjoner) under initialisering, ELLER legg til .toarray() når du transformerer dataene.
  • Kode verdiene i kolonnen 'City' ved å bruke city_encoder.fit_transform() og lagre den resulterende matrisen i variabelen city_encoded.
  • Opprett en instans av OrdinalEncoder og lagre den i variabelen income_encoder. Siden dataene har en naturlig rangering, definer rekkefølgen eksplisitt ved å bruke parameteren categories (merk at 'Low' < 'Middle' < 'High').
  • Kode verdiene i kolonnen 'Income' ved å bruke income_encoder og overskriv den opprinnelige kolonnen 'Income' med resultatet.

Løsning

Switch to desktopBytt til skrivebordet for virkelighetspraksisFortsett der du er med et av alternativene nedenfor
Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 2. Kapittel 6
single

single

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

some-alt