Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Umgang mit Fehlenden Werten | Kernkonzepte
Clusteranalyse

bookUmgang mit Fehlenden Werten

Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

Auffüllen mit Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der vorhandenen Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für schiefe Daten oder kategorische Merkmale geeignet.

Auffüllen mit Median

Bei dieser Methode werden fehlende Werte durch den Median der vorhandenen Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt zu keinen imputierten Daten. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die untenstehende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:

question mark

Welche Methode ist am besten geeignet, um mit fehlenden Werten in einer Spalte mit schief verteilten Daten und Ausreißern umzugehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Awesome!

Completion rate improved to 2.94

bookUmgang mit Fehlenden Werten

Swipe um das Menü anzuzeigen

Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

Auffüllen mit Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der vorhandenen Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für schiefe Daten oder kategorische Merkmale geeignet.

Auffüllen mit Median

Bei dieser Methode werden fehlende Werte durch den Median der vorhandenen Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt zu keinen imputierten Daten. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die untenstehende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:

question mark

Welche Methode ist am besten geeignet, um mit fehlenden Werten in einer Spalte mit schief verteilten Daten und Ausreißern umzugehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt