Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Umgang mit Fehlenden Werten | Kernkonzepte
Clusteranalyse Mit Python

Umgang mit Fehlenden Werten

Swipe um das Menü anzuzeigen

Fehlende Werte sind in realen Datensätzen häufig und müssen vor der Clusterbildung behandelt werden. Es werden drei grundlegende Methoden vorgestellt: Mittelwert-Imputation, Median-Imputation und Zeilenentfernung.

Auffüllen mit dem Mittelwert

Bei dieser Methode werden fehlende Werte in einer Spalte durch den Durchschnitt der vorhandenen Werte ersetzt. Sie ist einfach und erhält den Spaltenmittelwert.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Allerdings kann diese Methode die Varianz verringern und ist möglicherweise nicht für schiefe Daten oder kategorische Merkmale geeignet.

Auffüllen mit dem Median

Bei dieser Methode werden fehlende Werte durch den Median der vorhandenen Werte in der Spalte ersetzt. Der Median ist weniger anfällig für Ausreißer als der Mittelwert und eignet sich daher besser für schiefe Daten oder Daten mit Ausreißern.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Entfernen von Zeilen mit fehlenden Werten

Diese Methode löscht alle Zeilen, die fehlende Werte enthalten. Sie ist einfach und führt keine imputierten Daten ein. Allerdings kann sie zu erheblichem Datenverlust und Verzerrungen führen, wenn viele Zeilen entfernt werden oder das Fehlen der Werte nicht zufällig ist.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

Die Auswahl der besten Methode hängt von den Daten und den Analysezielen ab. Die Kodierungsdatei zeigt praktische Beispiele für jede Technik im Detail.

Die folgende Code-Datei enthält praktische Beispiele für jede in diesem Abschnitt behandelte Vorverarbeitungstechnik, einschließlich des Umgangs mit fehlenden Werten:

question mark

Welche Methode ist am besten geeignet, um fehlende Werte in einer Spalte mit schief verteilten Daten und Ausreißern zu behandeln?

Wählen Sie die richtige Antwort aus

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 2. Kapitel 1
some-alt