Seksjon 2. Kapittel 6
single
Utfordring: Forbehandling av Datasettet
Sveip for å vise menyen
Oppgave
Swipe to start coding
Du har fått et syntetisk datasett lagret i variabelen data. Oppgaven din er å håndtere manglende verdier og kode kategoriske variabler på riktig måte.
Følg disse trinnene:
- Erstatt manglende verdier i kolonnen
'Age'med gjennomsnittsverdien for denne kolonnen. Overskriv den opprinnelige kolonnen med resultatet. - Opprett en instans av
OneHotEncoderog lagre den i variabelencity_encoder. Sørg for å angidrop='first'for å unngå dummyvariabel-fellen.- Som standard returnerer denne encoder-en en sparsmatrise. For å gjøre den kompatibel med Pandas senere, sett parameteren
sparse_output=False(ellersparse=Falsefor eldre versjoner) under initialisering, ELLER legg til.toarray()når du transformerer dataene.
- Som standard returnerer denne encoder-en en sparsmatrise. For å gjøre den kompatibel med Pandas senere, sett parameteren
- Kode verdiene i kolonnen
'City'ved å brukecity_encoder.fit_transform()og lagre den resulterende matrisen i variabelencity_encoded. - Opprett en instans av
OrdinalEncoderog lagre den i variabelenincome_encoder. Siden dataene har en naturlig rangering, definer rekkefølgen eksplisitt ved å bruke parameterencategories(merk at'Low'<'Middle'<'High'). - Kode verdiene i kolonnen
'Income'ved å brukeincome_encoderog overskriv den opprinnelige kolonnen'Income'med resultatet.
Løsning
Alt var klart?
Takk for tilbakemeldingene dine!
Seksjon 2. Kapittel 6
single
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår