Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Uitdaging: Het Preprocessen van de Dataset | Kernconcepten
Clusteranalyse met Python
Sectie 2. Hoofdstuk 6
single

single

bookUitdaging: Het Preprocessen van de Dataset

Veeg om het menu te tonen

Taak

Swipe to start coding

Je krijgt een synthetische dataset die is opgeslagen in de variabele data. De opdracht is om ontbrekende waarden te verwerken en categorische kenmerken correct te coderen.

Volg deze stappen:

  • Vervang ontbrekende waarden in de kolom 'Age' door de gemiddelde waarde van deze kolom. Overschrijf de originele kolom met het resultaat.
  • Maak een instantie van OneHotEncoder en sla deze op in de variabele city_encoder. Zorg ervoor dat je drop='first' specificeert om de dummyvariabeleval te voorkomen.
  • Standaard retourneert deze encoder een sparse matrix. Om deze later compatibel te maken met Pandas, stel je de parameter sparse_output=False (of sparse=False voor oudere versies) in tijdens de initialisatie, OF voeg .toarray() toe wanneer je de data transformeert.
  • Codeer de waarden in de kolom 'City' met behulp van city_encoder.fit_transform() en sla de resulterende array op in de variabele city_encoded.
  • Maak een instantie van OrdinalEncoder en sla deze op in de variabele income_encoder. Omdat de data een natuurlijke hiërarchie heeft, definieer je de volgorde expliciet met de parameter categories (let op: 'Low' < 'Middle' < 'High').
  • Codeer de waarden in de kolom 'Income' met behulp van income_encoder en overschrijf de originele kolom 'Income' met het resultaat.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 6
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

some-alt