Uitdaging: Preprocessing-Pijplijn
Swipe to start coding
Je krijgt de Titanic dataset uit de seaborn-bibliotheek.
Je opdracht is om een volledige preprocessing-pijplijn te bouwen die alle essentiële datatransformaties uitvoert die vóór machine learning worden gebruikt.
Volg deze stappen:
- Laad de dataset met
sns.load_dataset("titanic"). - Behandel ontbrekende waarden:
- Numerieke kolommen → opvullen met het gemiddelde.
- Categorische kolommen → opvullen met de modus.
- Encodeer de categorische kenmerken
sexenembarkedmetpd.get_dummies(). - Schaal de numerieke kolommen
ageenfaremetStandardScaler. - Maak een nieuw kenmerk aan:
family_size = sibsp + parch + 1. - Combineer alle transformaties in een functie genaamd
preprocess_titanic(data)die de uiteindelijk verwerkte DataFrame retourneert. - Wijs de verwerkte dataset toe aan een variabele genaamd
processed_data.
Print de eerste 5 rijen van de uiteindelijke DataFrame.
Oplossing
Bedankt voor je feedback!
single
Vraag AI
Vraag AI
Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.
Can you explain that in simpler terms?
What are the main benefits of this approach?
Are there any common mistakes to avoid with this?
Awesome!
Completion rate improved to 8.33
Uitdaging: Preprocessing-Pijplijn
Veeg om het menu te tonen
Swipe to start coding
Je krijgt de Titanic dataset uit de seaborn-bibliotheek.
Je opdracht is om een volledige preprocessing-pijplijn te bouwen die alle essentiële datatransformaties uitvoert die vóór machine learning worden gebruikt.
Volg deze stappen:
- Laad de dataset met
sns.load_dataset("titanic"). - Behandel ontbrekende waarden:
- Numerieke kolommen → opvullen met het gemiddelde.
- Categorische kolommen → opvullen met de modus.
- Encodeer de categorische kenmerken
sexenembarkedmetpd.get_dummies(). - Schaal de numerieke kolommen
ageenfaremetStandardScaler. - Maak een nieuw kenmerk aan:
family_size = sibsp + parch + 1. - Combineer alle transformaties in een functie genaamd
preprocess_titanic(data)die de uiteindelijk verwerkte DataFrame retourneert. - Wijs de verwerkte dataset toe aan een variabele genaamd
processed_data.
Print de eerste 5 rijen van de uiteindelijke DataFrame.
Oplossing
Bedankt voor je feedback!
single