Avsnitt 2. Kapitel 6
single
Utmaning: Förbehandling av Datasetet
Svep för att visa menyn
Uppgift
Swipe to start coding
Du har fått en syntetisk datamängd lagrad i variabeln data. Din uppgift är att hantera saknade värden och koda kategoriska variabler på rätt sätt.
Följ dessa steg:
- Ersätt saknade värden i kolumnen
'Age'med medelvärdet för denna kolumn. Skriv över den ursprungliga kolumnen med resultatet. - Skapa en instans av
OneHotEncoderoch lagra den i variabelncity_encoder. Angedrop='first'för att undvika dummyvariabelfällan. - Som standard returnerar denna encoder en gles matris. För att göra den kompatibel med Pandas senare, ange parametern
sparse_output=False(ellersparse=Falseför äldre versioner) vid initiering, ELLER lägg till.toarray()när du transformerar data. - Koda värdena i kolumnen
'City'med hjälp avcity_encoder.fit_transform()och lagra den resulterande arrayen i variabelncity_encoded. - Skapa en instans av
OrdinalEncoderoch lagra den i variabelnincome_encoder. Eftersom datan har en naturlig hierarki, definiera ordningen explicit med parameterncategories(observera att'Low'<'Middle'<'High'). - Koda värdena i kolumnen
'Income'med hjälp avincome_encoderoch skriv över den ursprungliga kolumnen'Income'med resultatet.
Lösning
Var allt tydligt?
Tack för dina kommentarer!
Avsnitt 2. Kapitel 6
single
Fråga AI
Fråga AI
Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal