Veeg om het menu te tonen

Ontbrekende waarden komen vaak voor in real-world datasets en moeten worden aangepakt voordat clustering plaatsvindt. We behandelen drie basismethoden: imputatie met het gemiddelde, imputatie met de mediaan en het verwijderen van rijen.

Opvullen met het gemiddelde

Deze methode vervangt ontbrekende waarden in een kolom door het gemiddelde van de niet-ontbrekende waarden. Het is eenvoudig en behoudt het kolomgemiddelde.

# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())

Echter, het kan de variantie verminderen en is mogelijk niet geschikt voor scheve data of categorische kenmerken.

Opvullen met de mediaan

Deze methode vervangt ontbrekende waarden door de mediaan van de niet-ontbrekende waarden in de kolom. De mediaan is minder gevoelig voor uitschieters dan het gemiddelde, waardoor deze methode beter is voor scheve data of data met uitschieters.

# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())

Rijen met ontbrekende waarden verwijderen

Deze methode verwijdert alle rijen die ontbrekende waarden bevatten. Het is eenvoudig en introduceert geen geïmputeerde data. Echter, het kan leiden tot aanzienlijk dataverlies en vertekening als veel rijen worden verwijderd of als het ontbreken van waarden niet willekeurig is.

# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()

De beste methode hangt af van je data en analyse-doelen. Het codebestand toont praktische voorbeelden van elke techniek in meer detail.

Het onderstaande codebestand biedt praktische voorbeelden van elke preprocessingtechniek die in deze sectie wordt behandeld, inclusief het omgaan met ontbrekende waarden:

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 2. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Omgaan met Ontbrekende Waarden