single
Herausforderung: Fehlende Werte Imputieren
Swipe um das Menü anzuzeigen
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer bietet sie Methoden wie .fit(), .transform() und .fit_transform().
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
strategy-Optionen:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Import von
SimpleImputer; - Erstellen eines Imputers mit
strategy='most_frequent'; - Anwenden auf
df[['sex']]; - Zuweisen der imputierten Werte zurück zu
df['sex'].
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen