Sectie 2. Hoofdstuk 6
single
Uitdaging: Het Preprocessen van de Dataset
Veeg om het menu te tonen
Taak
Swipe to start coding
Je krijgt een synthetische dataset die is opgeslagen in de variabele data. De opdracht is om ontbrekende waarden te verwerken en categorische kenmerken correct te coderen.
Volg deze stappen:
- Vervang ontbrekende waarden in de kolom
'Age'door de gemiddelde waarde van deze kolom. Overschrijf de originele kolom met het resultaat. - Maak een instantie van
OneHotEncoderen sla deze op in de variabelecity_encoder. Zorg ervoor dat jedrop='first'specificeert om de dummyvariabeleval te voorkomen. - Standaard retourneert deze encoder een sparse matrix. Om deze later compatibel te maken met Pandas, stel je de parameter
sparse_output=False(ofsparse=Falsevoor oudere versies) in tijdens de initialisatie, OF voeg.toarray()toe wanneer je de data transformeert. - Codeer de waarden in de kolom
'City'met behulp vancity_encoder.fit_transform()en sla de resulterende array op in de variabelecity_encoded. - Maak een instantie van
OrdinalEncoderen sla deze op in de variabeleincome_encoder. Omdat de data een natuurlijke hiërarchie heeft, definieer je de volgorde expliciet met de parametercategories(let op:'Low'<'Middle'<'High'). - Codeer de waarden in de kolom
'Income'met behulp vanincome_encoderen overschrijf de originele kolom'Income'met het resultaat.
Oplossing
Was alles duidelijk?
Bedankt voor je feedback!
Sectie 2. Hoofdstuk 6
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.