Herausforderung: Fehlende Werte Imputieren
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer bietet sie Methoden wie .fit(), .transform() und .fit_transform().
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
strategy-Optionen:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Import von
SimpleImputer; - Erstellen eines Imputers mit
strategy='most_frequent'; - Anwenden auf
df[['sex']]; - Zuweisen der imputierten Werte zurück zu
df['sex'].
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Großartig!
Completion Rate verbessert auf 4.55
Herausforderung: Fehlende Werte Imputieren
Swipe um das Menü anzuzeigen
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer bietet sie Methoden wie .fit(), .transform() und .fit_transform().
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
strategy-Optionen:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Import von
SimpleImputer; - Erstellen eines Imputers mit
strategy='most_frequent'; - Anwenden auf
df[['sex']]; - Zuweisen der imputierten Werte zurück zu
df['sex'].
Lösung
Danke für Ihr Feedback!
single