single
Categorische Variabelen Beheren
Veeg om het menu te tonen
Nu ga je werken met de dataset die geen ontbrekende waarden bevat. De NaN-waarden uit de kolom 'Age' zijn vervangen door het gemiddelde van de kolom, en de NaN-waarde uit de kolom 'Fare' is verwijderd.
Dus, het is nu tijd om te leren hoe je categorische variabelen beheert. Categorisch betekent dat ze enkele categorieën hebben. Bijvoorbeeld, in de kolom 'Sex' zijn er 'male' en 'female'; of in de kolom 'Embarked' zijn er 'Q', 'S' en 'C'.
Wat moeten we doen om het aantal waarden in elke categorie te berekenen of om informatie over hen te vinden?
Je kent al .loc[], .isin(), .between() en veel functies, maar in pandas is er een mooiere en handigere manier om dit te doen. Gebruik de functie .get_dummies(). Als voorbeeld passen we deze toe op de kolom 'Embarked'. Bekijk de implementatie en het resultaat (we tonen de namen van 5 willekeurige passagiers en de nieuwe kolommen die we hebben aangemaakt).
1234import pandas as pd data = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/4bf24830-59ba-4418-969b-aaf8117d522e/titanic3.csv', index_col = 0) data = pd.get_dummies(data, columns = ['Embarked']) print(data[['Name', 'Embarked_C', 'Embarked_Q', 'Embarked_S']].sample(5))
Laten we een van de mogelijke uitvoer bekijken, specifiek een van de mogelijke combinaties van vijf willekeurig geselecteerde rijen. Je kunt horizontaal door de tabel scrollen om alle kolommen te bekijken:
Uitleg:
Als resultaat heeft onze functie de kolom 'Embarked' opgesplitst in drie kolommen: 'Embarked_C', 'Embarked_Q' en 'Embarked_S'. In totaal zijn er drie categorieën. Elke passagier heeft zijn categorie in de kolom 'Embarked'. Onze functie maakt dus drie kolommen die overeenkomen met elke categorie, en voor elke passagier wordt in de betreffende kolom een 1 ingevuld als de persoon oorspronkelijk tot die geografie behoorde; anders wordt er een 0 ingevuld. Zo staat er slechts in één kolom een 1.
pd.get_dummies(data, columns = ['Embarked'])
pd.get_dummies()- deze functie zet categorische variabelen om in dummy-variabelen (1 of 0);data- het data frame dat je wilt gebruiken;columns = ['Embarked']- kolommen met categorische variabelen die je wilt omzetten naar dummy-variabelen. Let op: het is verplicht om kolomnamen in een lijst te plaatsen.
Veeg om te beginnen met coderen
Je taak hier is om de kolom 'Sex' om te zetten naar een kolom met dummyvariabelen in plaats van categorische waarden. Geef vervolgens de som van de waarden in elke categorie weer.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.