Umgang mit Fehlenden Werten
Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.
Auffüllen mit Mittelwert
Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der vorhandenen Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für schiefe Daten oder kategorische Merkmale geeignet.
Auffüllen mit Median
Bei dieser Methode werden fehlende Werte durch den Median der vorhandenen Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Entfernen von Zeilen mit fehlenden Werten
Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt zu keinen imputierten Daten. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.
Die untenstehende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:
Danke für Ihr Feedback!
Fragen Sie AI
Fragen Sie AI
Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen
Awesome!
Completion rate improved to 2.94
Umgang mit Fehlenden Werten
Swipe um das Menü anzuzeigen
Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.
Auffüllen mit Mittelwert
Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der vorhandenen Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für schiefe Daten oder kategorische Merkmale geeignet.
Auffüllen mit Median
Bei dieser Methode werden fehlende Werte durch den Median der vorhandenen Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)
# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
Entfernen von Zeilen mit fehlenden Werten
Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt zu keinen imputierten Daten. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.
# First option
df.dropna(inplace=True)
# Second option
df = df.dropna()
Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.
Die untenstehende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:
Danke für Ihr Feedback!