Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Utmaning: Förbehandling av Datasetet | Grundläggande Koncept
Klusteranalys med Python
Avsnitt 2. Kapitel 6
single

single

bookUtmaning: Förbehandling av Datasetet

Svep för att visa menyn

Uppgift

Swipe to start coding

Du har fått en syntetisk datamängd lagrad i variabeln data. Din uppgift är att hantera saknade värden och koda kategoriska variabler på rätt sätt.

Följ dessa steg:

  • Ersätt saknade värden i kolumnen 'Age' med medelvärdet för denna kolumn. Skriv över den ursprungliga kolumnen med resultatet.
  • Skapa en instans av OneHotEncoder och lagra den i variabeln city_encoder. Ange drop='first' för att undvika dummyvariabelfällan.
  • Som standard returnerar denna encoder en gles matris. För att göra den kompatibel med Pandas senare, ange parametern sparse_output=False (eller sparse=False för äldre versioner) vid initiering, ELLER lägg till .toarray() när du transformerar data.
  • Koda värdena i kolumnen 'City' med hjälp av city_encoder.fit_transform() och lagra den resulterande arrayen i variabeln city_encoded.
  • Skapa en instans av OrdinalEncoder och lagra den i variabeln income_encoder. Eftersom datan har en naturlig hierarki, definiera ordningen explicit med parametern categories (observera att 'Low' < 'Middle' < 'High').
  • Koda värdena i kolumnen 'Income' med hjälp av income_encoder och skriv över den ursprungliga kolumnen 'Income' med resultatet.

Lösning

Switch to desktopByt till skrivbordet för praktisk övningFortsätt där du är med ett av alternativen nedan
Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 6
single

single

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

some-alt