Summary
This chapter covers techniques for handling missing data by either removing incomplete rows or imputing missing values using a column’s mean or median.

General domain of usage
Clustering in machine learning

**Saknade värden** är vanliga i verkliga datamängder och måste hanteras **innan klustring**. Vi går igenom tre grundläggande metoder: medelimputation, medianimputation och borttagning av rader.

### Fyllning med medelvärde 

Denna metod ersätter saknade värden i en kolumn med **genomsnittet** av dess icke-saknade värden. Det är enkelt och bibehåller **kolumnens medelvärde**. 

```python
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
```


Dock kan det minska variansen och är kanske inte lämpligt för **snedfördelad data** eller **kategoriska variabler**.

### Fyllning med median 

Denna metod ersätter saknade värden med **medianen** av de icke-saknade värdena i kolumnen. Medianen är **mindre känslig för avvikare** än medelvärdet, vilket gör den bättre för snedfördelad data eller data med avvikare.

```python
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
```

### Ta bort rader med saknade värden 

Denna metod tar bort alla rader som innehåller saknade värden. Den är enkel och introducerar **inga imputerade data**. Dock kan det leda till **betydande dataförlust** och **bias** om många rader tas bort eller om saknade värden inte är slumpmässiga.
  
```python
# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()
```
  
Valet av bästa metod beror på din **data** och **analysmål**. Kodfilen visar praktiska exempel på varje teknik i mer detalj. 

Kodfilen nedan ger praktiska exempel på varje **förbehandlingsteknik** som behandlas i detta avsnitt, inklusive hantering av saknade värden:

Ladda ner koden

Vilken metod är mest lämplig för att hantera saknade värden i en kolumn med snedfördelad data och avvikare?

Få en gedigen förståelse för klusteranalys, en central teknik inom osupervised learning för att identifiera mönster i oetiketterad data. Utforska grunderna i K-Means, Hierarkisk klustring, DBSCAN och GMM, samt få praktisk erfarenhet med verkliga datamängder för att bygga upp förtroende i att tillämpa klustring på verkliga problem.

Fördjupa dig i grunderna för klustring och upptäck hur det skiljer sig från klassificering. Utforska grundläggande algoritmer, verktyg och bibliotek som driver denna oövervakade inlärningsteknik för att avslöja dolda mönster i data.

Få en gedigen förståelse för centrala förbehandlingstekniker som säkerställer effektiv klustring.
Hantering av saknade värden.
Kodning av kategoriska variabler.
Normalisering av data.
Val av lämpliga avståndsmått och länkningar för att förbättra klustringsnoggrannheten.

Behärska de färdigheter som krävs för att tillämpa K-Means-klustring effektivt. Förstå hur algoritmen fungerar, fastställ det optimala antalet kluster och få praktisk erfarenhet genom att implementera K-Means på både syntetiska och verkliga datamängder.

Utforska grunderna i hierarkisk klustring och lär dig att gruppera data i meningsfulla kluster med hjälp av dendrogram. Få förståelse för att identifiera det optimala antalet kluster och tillämpa tekniken på både syntetiska och verkliga dataset.

Utforska hur DBSCAN utmärker sig vid identifiering av kluster med varierande former och hantering av brus i data. Förstå mekanismerna bakom denna täthetsbaserade algoritm, hur punkter tilldelas kluster samt tillämpa den på både syntetiska och verkliga datamängder med säkerhet.

Få en gedigen förståelse för Gaussiska Mixturmodeller och hur de använder sannolikhet för att modellera komplexa klusterformer. Utforska principerna bakom Gaussisk fördelning, undersök hur GMM fungerar och stärk din kompetens genom att tillämpa dem på både simulerad och verklig data.

Hantering av Saknade Värden

Fyllning med medelvärde

Fyllning med median

Ta bort rader med saknade värden