Summary
This chapter covers techniques for handling missing data by either removing incomplete rows or imputing missing values using a column’s mean or median.

General domain of usage
Clustering in machine learning

**Valores ausentes** são comuns em conjuntos de dados do mundo real e devem ser tratados **antes da clusterização**. Serão abordados três métodos básicos: imputação pela média, imputação pela mediana e remoção de linhas.

### Preenchimento com Média 

Este método substitui valores ausentes em uma coluna pela **média** dos valores não ausentes. É simples e mantém a **média da coluna**. 

```python
# First option
df['column_name'].fillna(df['column_name'].mean(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].mean())
```


No entanto, pode reduzir a variância e pode não ser adequado para **dados assimétricos** ou **variáveis categóricas**.

### Preenchimento com Mediana 

Este método substitui valores ausentes pela **mediana** dos valores não ausentes na coluna. A mediana é **menos sensível a outliers** do que a média, sendo mais adequada para dados assimétricos ou com outliers.

```python
# First option
df['column_name'].fillna(df['column_name'].median(), inplace=True)

# Second option
df['column_name'] = df['column_name'].fillna(df['column_name'].median())
```

### Remoção de Linhas com Valores Ausentes

Este método exclui quaisquer linhas que contenham valores ausentes. É simples e não introduz **dados imputados**. No entanto, pode resultar em **perda significativa de dados** e **viés** se muitas linhas forem removidas ou se a ausência de dados não for aleatória.
  
```python
# First option
df.dropna(inplace=True)

# Second option
df = df.dropna()
```
  
A escolha do melhor método depende dos seus **dados** e dos objetivos da **análise**. O arquivo de código mostra exemplos práticos de cada técnica em mais detalhes.

O arquivo de código abaixo fornece exemplos práticos de cada **técnica de pré-processamento** abordada nesta seção, incluindo o tratamento de valores ausentes:

Baixar o Código

Qual método é mais apropriado para tratar valores ausentes em uma coluna com dados assimétricos e outliers?

Obtenha uma compreensão sólida da análise de clusters, uma técnica fundamental de aprendizado não supervisionado para descobrir padrões em dados não rotulados. Explore os conceitos essenciais de K-Means, Clusterização Hierárquica, DBSCAN e GMMs, e adquira experiência prática com conjuntos de dados reais para desenvolver confiança na aplicação de clusterização em problemas do mundo real.

Aprofunde-se nos fundamentos do clustering e descubra como ele difere da classificação. Explore algoritmos, ferramentas e bibliotecas essenciais que impulsionam essa técnica de aprendizado não supervisionado para revelar padrões ocultos nos dados.

Obtenha uma compreensão sólida das principais técnicas de pré-processamento que garantem uma clusterização eficaz. Aprenda a lidar com valores ausentes, codificar variáveis categóricas, normalizar dados e escolher medidas de distância e métodos de ligação apropriados para aumentar a precisão da clusterização.

Domine as habilidades necessárias para aplicar a clusterização K-Means de forma eficaz. Aprenda como o algoritmo funciona, determine o número ideal de clusters e obtenha experiência prática implementando o K-Means em conjuntos de dados sintéticos e do mundo real.

Explore os conceitos essenciais do agrupamento hierárquico e aprenda a agrupar dados em clusters significativos utilizando dendrogramas. Desenvolva confiança na identificação do número ideal de clusters e na aplicação da técnica em conjuntos de dados sintéticos e do mundo real.

Descubra como o DBSCAN se destaca na detecção de clusters com formatos variados e no tratamento de ruídos nos dados. Compreenda a mecânica por trás deste algoritmo baseado em densidade, como atribuir pontos a clusters e aplicá-lo com confiança em conjuntos de dados sintéticos e reais.

Obtenha uma compreensão sólida dos Modelos de Mistura Gaussiana e de como utilizam probabilidade para modelar formas de clusters complexas. Explore os princípios da distribuição Gaussiana, entenda o funcionamento dos GMMs e desenvolva confiança ao aplicá-los em dados simulados e reais.

Tratamento de Valores Ausentes

Preenchimento com Média

Preenchimento com Mediana

Remoção de Linhas com Valores Ausentes