Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Familiarizando-se com o Conjunto de Dados | Pré-Processamento de Dados com Scikit-Learn
Introdução ao Aprendizado de Máquina com Python

Familiarizando-se com o Conjunto de Dados

Deslize para mostrar o menu

Início do pré-processamento com a exploração do conjunto de dados. Ao longo deste curso, será utilizado o conjunto de dados de pinguins, com o objetivo de prever a espécie de um pinguim.

qual pinguim

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

Pinguins

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

O conjunto de dados está armazenado no arquivo penguins.csv. Ele pode ser carregado a partir de um link com a função pd.read_csv() para examinar seu conteúdo:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))

Este conjunto de dados apresenta várias questões que precisam ser tratadas:

  • Dados ausentes;
  • Variáveis categóricas;
  • Diferentes escalas de atributos.

Dados Ausentes

A maioria dos algoritmos de ML não consegue processar valores ausentes diretamente, portanto, estes devem ser tratados antes do treinamento. Os valores ausentes podem ser removidos ou imputados (substituídos por valores alternativos).

No pandas, células vazias são representadas como NaN. Muitos modelos de ML apresentarão erro se o conjunto de dados contiver até mesmo um único NaN.

Valores ausentes

Dados Categóricos

O conjunto de dados inclui variáveis categóricas, que os modelos de aprendizado de máquina não conseguem processar diretamente.

Colunas categóricas

Os dados categóricos devem ser codificados em formato numérico.

Escalas Diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por causa disso, alguns modelos de ML podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

Escala diferente

A normalização resolve esse problema. Esse tema será abordado em capítulos posteriores.

question-icon

Associe o problema à forma de resolvê-lo.

Missing values –
Categorical data –

Different Scales –

Click or drag`n`drop items and fill in the blanks

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 2. Capítulo 2
some-alt