Umgang mit Fehlenden Werten
Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.
Auffüllen mit Mittelwert
Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der nicht fehlenden Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Allerdings kann dies die Varianz verringern und ist möglicherweise nicht geeignet für schiefe Daten oder kategorische Merkmale.
Auffüllen mit Median
Bei dieser Methode werden fehlende Werte durch den Median der nicht fehlenden Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Entfernen von Zeilen mit fehlenden Werten
Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt keine imputierten Daten ein. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.
Die folgende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Can you explain when to use mean vs. median imputation?
What are the risks of removing rows with missing values?
How do I decide which method is best for my dataset?
Awesome!
Completion rate improved to 2.94
Umgang mit Fehlenden Werten
Swipe um das Menü anzuzeigen
Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.
Auffüllen mit Mittelwert
Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der nicht fehlenden Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Allerdings kann dies die Varianz verringern und ist möglicherweise nicht geeignet für schiefe Daten oder kategorische Merkmale.
Auffüllen mit Median
Bei dieser Methode werden fehlende Werte durch den Median der nicht fehlenden Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Entfernen von Zeilen mit fehlenden Werten
Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt keine imputierten Daten ein. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.
Die folgende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:
Danke für Ihr Feedback!