Abschnitt 2. Kapitel 6
single
Herausforderung: Vorverarbeitung des Datensatzes
Swipe um das Menü anzuzeigen
Aufgabe
Swipe to start coding
Sie erhalten einen synthetischen Datensatz, der in der Variablen data gespeichert ist. Ihre Aufgabe besteht darin, fehlende Werte zu behandeln und kategoriale Merkmale korrekt zu kodieren.
Gehen Sie wie folgt vor:
- Ersetzen Sie fehlende Werte in der Spalte
'Age'durch den Mittelwert dieser Spalte. Überschreiben Sie die Originalspalte mit dem Ergebnis. - Erstellen Sie eine Instanz von
OneHotEncoderund speichern Sie sie in der Variablencity_encoder. Geben Sie dabeidrop='first'an, um die Dummy-Variable-Falle zu vermeiden.- Standardmäßig gibt dieser Encoder eine Sparse-Matrix zurück. Um später die Kompatibilität mit Pandas zu gewährleisten, setzen Sie beim Initialisieren den Parameter
sparse_output=False(odersparse=Falsefür ältere Versionen), ODER fügen Sie beim Transformieren.toarray()hinzu.
- Standardmäßig gibt dieser Encoder eine Sparse-Matrix zurück. Um später die Kompatibilität mit Pandas zu gewährleisten, setzen Sie beim Initialisieren den Parameter
- Kodieren Sie die Werte in der Spalte
'City'mitcity_encoder.fit_transform()und speichern Sie das resultierende Array in der Variablencity_encoded. - Erstellen Sie eine Instanz von
OrdinalEncoderund speichern Sie sie in der Variablenincome_encoder. Da die Daten eine natürliche Hierarchie aufweisen, definieren Sie die Reihenfolge explizit mit dem Parametercategories(beachten Sie:'Low'<'Middle'<'High'). - Kodieren Sie die Werte in der Spalte
'Income'mitincome_encoderund überschreiben Sie die Originalspalte'Income'mit dem Ergebnis.
Lösung
War alles klar?
Danke für Ihr Feedback!
Abschnitt 2. Kapitel 6
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen