Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Leer Categorische Variabelen Beheren | Preprocessing Data
Data Wrangling met Pandas
Sectie 5. Hoofdstuk 6
single

single

bookCategorische Variabelen Beheren

Veeg om het menu te tonen

Nu ga je werken met de dataset die geen ontbrekende waarden bevat. De NaN-waarden uit de kolom 'Age' zijn vervangen door het gemiddelde van de kolom, en de NaN-waarde uit de kolom 'Fare' is verwijderd. Dus, het is nu tijd om te leren hoe je categorische variabelen beheert. Categorisch betekent dat ze enkele categorieën hebben. Bijvoorbeeld, in de kolom 'Sex' zijn er 'male' en 'female'; of in de kolom 'Embarked' zijn er 'Q', 'S' en 'C'.

Wat moeten we doen om het aantal waarden in elke categorie te berekenen of om informatie over hen te vinden?

Je kent al .loc[], .isin(), .between() en veel functies, maar in pandas is er een mooiere en handigere manier om dit te doen. Gebruik de functie .get_dummies(). Als voorbeeld passen we deze toe op de kolom 'Embarked'. Bekijk de implementatie en het resultaat (we tonen de namen van 5 willekeurige passagiers en de nieuwe kolommen die we hebben aangemaakt).

1234
import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
copy

Laten we een van de mogelijke uitvoer bekijken, specifiek een van de mogelijke combinaties van vijf willekeurig geselecteerde rijen. Je kunt horizontaal door de tabel scrollen om alle kolommen te bekijken:

Uitleg:

Als resultaat heeft onze functie de kolom 'Embarked' opgesplitst in drie kolommen: 'Embarked_C', 'Embarked_Q' en 'Embarked_S'. In totaal zijn er drie categorieën. Elke passagier heeft zijn categorie in de kolom 'Embarked'. Onze functie maakt dus drie kolommen die overeenkomen met elke categorie, en voor elke passagier wordt in de betreffende kolom een 1 ingevuld als de persoon oorspronkelijk tot die geografie behoorde; anders wordt er een 0 ingevuld. Zo staat er slechts in één kolom een 1.

pd.get_dummies(data, columns = ['Embarked'])
  • pd.get_dummies() - deze functie zet categorische variabelen om in dummy-variabelen (1 of 0);
  • data - het data frame dat je wilt gebruiken;
  • columns = ['Embarked'] - kolommen met categorische variabelen die je wilt omzetten naar dummy-variabelen. Let op: het is verplicht om kolomnamen in een lijst te plaatsen.
Taak

Veeg om te beginnen met coderen

Je taak hier is om de kolom 'Sex' om te zetten naar een kolom met dummyvariabelen in plaats van categorische waarden. Geef vervolgens de som van de waarden in elke categorie weer.

Oplossing

Switch to desktopSchakel over naar desktop voor praktijkervaringGa verder vanaf waar je bent met een van de onderstaande opties
Was alles duidelijk?

Hoe kunnen we het verbeteren?

Bedankt voor je feedback!

Sectie 5. Hoofdstuk 6
single

single

Vraag AI

expand

Vraag AI

ChatGPT

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

some-alt