Summary  
This chapter covers detecting and quantifying missing values in a tabular data structure, then handling them by filtering out rows based on missing-value thresholds in preparation for imputation.  

General domain of usage  
Data preprocessing for machine learning

Nur eine begrenzte Anzahl von Machine-Learning-Modellen kann mit fehlenden Werten umgehen, daher muss das Datenset überprüft werden, um sicherzustellen, dass keine Lücken verbleiben. Falls fehlende Werte vorhanden sind, können diese auf zwei Arten behandelt werden:

* Entfernen von Zeilen, die fehlende Werte enthalten;
* Ausfüllen leerer Zellen mit Ersatzwerten, ein Verfahren, das als **Imputation** bezeichnet wird.


## Identifikation fehlender Werte

Um allgemeine Informationen über das Datenset auszugeben und auf fehlende Werte zu prüfen, kann die `.info()`-Methode eines DataFrames verwendet werden.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.info())

Der Datensatz umfasst 344 Einträge, jedoch enthalten die Spalten `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` und `'sex'` jeweils weniger als 344 Nicht-Null-Werte, was auf das Vorhandensein fehlender Daten hinweist.


Null ist eine andere Bezeichnung für fehlende Werte.  

Hinweis

Um die **Anzahl der fehlenden Werte in jeder Spalte** zu ermitteln, die Methode `.isna()` anwenden und anschließend `.sum()` verwenden.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.isna().sum())

Zeilen mit fehlenden Werten können angezeigt werden mit:
`df[df.isna().any(axis=1)]`


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df[df.isna().any(axis=1)])

## Entfernen von Zeilen

Die erste und letzte Zeile enthalten nur die Zielvariable (`'species'`) und den Wert für `'island'` und liefern zu wenige Informationen, um nützlich zu sein. Diese Zeilen können entfernt werden, indem nur diejenigen mit weniger als zwei `NaN`-Werten beibehalten und erneut `df` zugewiesen werden.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

df = df[df.isna().sum(axis=1) < 2]
print(df.head(8))

Im Gegensatz dazu enthalten die verbleibenden Zeilen nützliche Informationen, wobei `NaN`-Werte nur in der Spalte `'sex'` auftreten. Anstatt diese Zeilen zu entfernen, können die fehlenden Werte **imputiert** werden. Ein gängiger Ansatz ist die Verwendung des `SimpleImputer`-Transformers, der im nächsten Kapitel behandelt wird.

Mit welcher der folgenden Methoden können fehlende Werte in einem pandas DataFrame identifiziert werden?

Beherrschen Sie die Grundlagen des Machine Learning und der Scikit-learn-Bibliothek. Erforschen Sie den vollständigen ML-Workflow, von der Behandlung fehlender Werte und der Kodierung kategorialer Daten bis hin zur Skalierung von Merkmalen. Erstellen Sie effiziente, auslaufsichere Datenvorverarbeitungspipelines mit ColumnTransformer. Wandeln Sie Rohdatensätze in modellbereite Strukturen um und implementieren Sie robuste prädiktive Pipelines.

Umgang mit Fehlenden Werten

Identifikation fehlender Werte

Entfernen von Zeilen