Deslize para mostrar o menu

Início do pré-processamento com a exploração do conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados de pinguins, com o objetivo de prever a espécie de um pinguim.

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

O conjunto de dados está armazenado no arquivo penguins.csv. Ele pode ser carregado a partir de um link com a função pd.read_csv() para examinar seu conteúdo:


              12345
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv')

print(df.head(10))

Este conjunto de dados apresenta várias questões que precisam ser tratadas:

Dados ausentes;
Variáveis categóricas;
Diferentes escalas de atributos.

Dados Ausentes

A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Os valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).

No pandas, células vazias são representadas como NaN. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver até mesmo um único NaN.

Dados Categóricos

O conjunto de dados inclui variáveis categóricas, que os modelos de aprendizado de máquina não conseguem processar diretamente.

Os dados categóricos devem ser codificados em formato numérico.

Escalas Diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por causa disso, alguns modelos de ML podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

A normalização resolve esse problema. Esse tema será abordado em capítulos posteriores.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Familiarizando-se com o Conjunto de Dados