Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Umgang mit Fehlenden Werten | Kernkonzepte
Clusteranalyse

bookUmgang mit Fehlenden Werten

Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

Auffüllen mit Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der nicht fehlenden Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Allerdings kann dies die Varianz verringern und ist möglicherweise nicht geeignet für schiefe Daten oder kategorische Merkmale.

Auffüllen mit Median

Bei dieser Methode werden fehlende Werte durch den Median der nicht fehlenden Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt keine imputierten Daten ein. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die folgende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:

question mark

Welche Methode ist am besten geeignet, um mit fehlenden Werten in einer Spalte mit schief verteilten Daten und Ausreißern umzugehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Suggested prompts:

Can you explain when to use mean vs. median imputation?

What are the risks of removing rows with missing values?

How do I decide which method is best for my dataset?

Awesome!

Completion rate improved to 2.94

bookUmgang mit Fehlenden Werten

Swipe um das Menü anzuzeigen

Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

Auffüllen mit Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der nicht fehlenden Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Allerdings kann dies die Varianz verringern und ist möglicherweise nicht geeignet für schiefe Daten oder kategorische Merkmale.

Auffüllen mit Median

Bei dieser Methode werden fehlende Werte durch den Median der nicht fehlenden Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt keine imputierten Daten ein. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Die Auswahl der besten Methode hängt von Ihren Daten und den Analysezielen ab. Die Codierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die folgende Code-Datei bietet praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:

question mark

Welche Methode ist am besten geeignet, um mit fehlenden Werten in einer Spalte mit schief verteilten Daten und Ausreißern umzugehen?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1
some-alt