Summary  
This chapter demonstrates how to detect and quantify missing values in a pandas DataFrame using methods like .info() and .isna(), filter rows containing NaNs, and remove rows based on a missing-data threshold.  

General domain of usage  
Data preprocessing for machine learning

Apenas um número limitado de modelos de aprendizado de máquina consegue lidar com valores ausentes, portanto, é necessário verificar o conjunto de dados para garantir que não restem lacunas. Se houver valores ausentes, eles podem ser tratados de duas maneiras:

* Remoção das linhas que contêm valores ausentes;
* Preenchimento das células vazias com valores substitutos, um processo conhecido como **imputação**.


## Identificação de valores ausentes

Para exibir informações gerais sobre o conjunto de dados e verificar a existência de valores ausentes, pode-se utilizar o método `.info()` de um DataFrame.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.info())

O conjunto de dados possui 344 entradas, mas as colunas `'culmen_depth_mm'`, `'flipper_length_mm'`, `'body_mass_g'` e `'sex'` contêm menos de 344 valores não nulos cada, indicando a presença de dados ausentes.


Null é outro nome para valores ausentes.  

Nota

Para identificar o **número de valores ausentes em cada coluna**, aplique o método `.isna()` e depois utilize `.sum()`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.isna().sum())

Linhas contendo valores ausentes podem ser exibidas com:
`df[df.isna().any(axis=1)]`


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df[df.isna().any(axis=1)])

## Remoção de Linhas

A primeira e a última linhas contêm apenas os valores de target (`'species'`) e `'island'`, fornecendo informações insuficientes para serem úteis. Essas linhas podem ser removidas mantendo apenas aquelas com menos de dois valores `NaN` e reatribuindo-as ao `df`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

df = df[df.isna().sum(axis=1) < 2]
print(df.head(8))

Em contraste, as linhas restantes contêm informações úteis, com valores `NaN` aparecendo apenas na coluna `'sex'`. Em vez de remover essas linhas, os valores ausentes podem ser **imputados**. Uma abordagem comum é utilizar o transformador `SimpleImputer`, que será abordado no próximo capítulo.

O aprendizado de máquina está presente em todos os lugares atualmente. Quer aprender por conta própria? Este curso é uma introdução ao mundo do aprendizado de máquina para que você compreenda os conceitos básicos, trabalhe com o Scikit-learn – a biblioteca mais popular para ML – e desenvolva seu primeiro projeto de aprendizado de máquina.
Este curso é destinado a estudantes com conhecimentos básicos em Python, Pandas e Numpy.

Aprenda os conceitos de Machine Learning e o fluxo de trabalho de projetos de ML.

O pré-processamento é provavelmente a etapa mais importante de um projeto de ML. Este capítulo aborda as etapas de pré-processamento necessárias para praticamente qualquer conjunto de dados.

Um pipeline é uma maneira organizada de combinar todas as etapas de pré-processamento, bem como um modelo. Pipelines facilitam muito o treinamento e a utilização de um modelo.

A modelagem é a etapa mais divertida de um projeto de ML. Vamos aprender a construir, ajustar e avaliar o modelo!

Lidando com Valores Ausentes

Identificação de valores ausentes

Remoção de Linhas