Herausforderung: Fehlende Werte Imputieren
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer stellt sie Methoden wie .fit(), .transform() und .fit_transform() bereit.
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
Optionen für strategy:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Importieren Sie
SimpleImputer; - Erstellen Sie einen Imputer mit
strategy='most_frequent'; - Wenden Sie ihn auf
df[['sex']]an; - Weisen Sie die imputierten Werte wieder
df['sex']zu.
Lösung
Danke für Ihr Feedback!
single
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 3.13
Herausforderung: Fehlende Werte Imputieren
Swipe um das Menü anzuzeigen
Die Klasse SimpleImputer ersetzt fehlende Werte automatisch.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer()
Wichtige Parameter:
missing_value: Platzhalter, der als fehlend behandelt wird (Standard:np.nan);strategy: Methode zum Auffüllen der Lücken (Standard:'mean');fill_value: Wird verwendet, wennstrategy='constant'.
Als Transformer stellt sie Methoden wie .fit(), .transform() und .fit_transform() bereit.
Die Auswahl der Methode zum Auffüllen fehlender Daten ist entscheidend. Ein gängiger Ansatz:
- numerische Merkmale → Mittelwert;
- kategoriale Merkmale → häufigster Wert.
Optionen für strategy:
'mean'— Auffüllen mit Mittelwert;'median'— Auffüllen mit Median;'most_frequent'— Auffüllen mit Modus;'constant'— Auffüllen mit einem angegebenen Wert überfill_value.
missing_values definiert, welche Werte als fehlend betrachtet werden (Standard: NaN, kann aber auch '' oder ein anderes Zeichen sein).
SimpleImputer erwartet ein DataFrame, keine Series.
Ein DataFrame mit nur einer Spalte muss mit doppelten eckigen Klammern ausgewählt werden:
imputer.fit_transform(df[['column']])
fit_transform() gibt ein 2D-Array zurück, aber das Zurückschreiben in eine DataFrame-Spalte erfordert ein 1D-Array.
Das Ergebnis mit .ravel() flach machen:
df['column'] = imputer.fit_transform(df[['column']]).ravel()
Swipe to start coding
Sie erhalten ein DataFrame df mit Pinguindaten. Die Spalte 'sex' enthält fehlende Werte. Füllen Sie diese mit der häufigsten Kategorie.
- Importieren Sie
SimpleImputer; - Erstellen Sie einen Imputer mit
strategy='most_frequent'; - Wenden Sie ihn auf
df[['sex']]an; - Weisen Sie die imputierten Werte wieder
df['sex']zu.
Lösung
Danke für Ihr Feedback!
single