Sektion 2. Kapitel 6
single
Udfordring: Forbehandling af Datasættet
Stryg for at vise menuen
Opgave
Swipe to start coding
Du får et syntetisk datasæt gemt i variablen data. Din opgave er at håndtere manglende værdier og korrekt kode kategoriske variable.
Følg disse trin:
- Erstat manglende værdier i kolonnen
'Age'med gennemsnitsværdien for denne kolonne. Overskriv den oprindelige kolonne med resultatet. - Opret en instans af
OneHotEncoderog gem den i variablencity_encoder. Sørg for at angivedrop='first'for at undgå dummyvariabel-fælden. - Som standard returnerer denne encoder en sparsom matrix. For at gøre den kompatibel med Pandas senere, skal du sætte parameteren
sparse_output=False(ellersparse=Falsefor ældre versioner) under initialisering, ELLER tilføje.toarray()når du transformerer dataene. - Kod værdierne i kolonnen
'City'ved hjælp afcity_encoder.fit_transform()og gem det resulterende array i variablencity_encoded. - Opret en instans af
OrdinalEncoderog gem den i variablenincome_encoder. Da dataene har en naturlig rangorden, skal du eksplicit definere rækkefølgen ved hjælp af parameterencategories(bemærk at'Low'<'Middle'<'High'). - Kod værdierne i kolonnen
'Income'ved hjælp afincome_encoderog overskriv den oprindelige kolonne'Income'med resultatet.
Løsning
Var alt klart?
Tak for dine kommentarer!
Sektion 2. Kapitel 6
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat