Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Familiarizando-Se Com o Conjunto de Dados | Pré-Processamento de Dados com Scikit-learn
Introdução ao ML com Scikit-Learn

bookFamiliarizando-Se Com o Conjunto de Dados

Vamos iniciar o pré-processamento explorando o conjunto de dados. Ao longo do curso, utilizaremos o conjunto de dados dos pinguins. A tarefa é prever a espécie de um pinguim.

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

Os dados estão contidos no arquivo penguins.csv. Carregaremos este arquivo a partir de um link utilizando a função pd.read_csv() e analisaremos o conteúdo:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ao analisar este conjunto de dados, já podemos identificar alguns problemas que precisam ser resolvidos. São eles:

  • Dados ausentes;
  • Variáveis categóricas;
  • Escalas diferentes.

Dados Ausentes

A maioria dos algoritmos de ML não consegue lidar automaticamente com valores ausentes, portanto, é necessário removê-los (ou substituí-los por algum valor, processo chamado de imputação) antes de fornecer o conjunto de treinamento para um modelo.

O pandas preenche células vazias da tabela com NaN. A maioria dos modelos de ML apresentará erro se existir pelo menos um NaN nos dados.

Dados categóricos

Os dados contêm dados categóricos, que já sabemos que não podem ser processados por modelos de aprendizado de máquina.

Portanto, é necessário codificar os dados categóricos em valores numéricos.

Escalas diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por esse motivo, alguns modelos de ML podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

Escalonamento resolve esse problema. Será abordado em capítulos posteriores.

question-icon

Associe o problema à forma de resolvê-lo.

Missing values –
Categorical data –

Different Scales –

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.13

bookFamiliarizando-Se Com o Conjunto de Dados

Deslize para mostrar o menu

Vamos iniciar o pré-processamento explorando o conjunto de dados. Ao longo do curso, utilizaremos o conjunto de dados dos pinguins. A tarefa é prever a espécie de um pinguim.

Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:

As características são: 'island', 'culmen_depth_mm', 'flipper_length_mm', 'body_mass_g' e 'sex'.

Os dados estão contidos no arquivo penguins.csv. Carregaremos este arquivo a partir de um link utilizando a função pd.read_csv() e analisaremos o conteúdo:

12345
import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
copy

Ao analisar este conjunto de dados, já podemos identificar alguns problemas que precisam ser resolvidos. São eles:

  • Dados ausentes;
  • Variáveis categóricas;
  • Escalas diferentes.

Dados Ausentes

A maioria dos algoritmos de ML não consegue lidar automaticamente com valores ausentes, portanto, é necessário removê-los (ou substituí-los por algum valor, processo chamado de imputação) antes de fornecer o conjunto de treinamento para um modelo.

O pandas preenche células vazias da tabela com NaN. A maioria dos modelos de ML apresentará erro se existir pelo menos um NaN nos dados.

Dados categóricos

Os dados contêm dados categóricos, que já sabemos que não podem ser processados por modelos de aprendizado de máquina.

Portanto, é necessário codificar os dados categóricos em valores numéricos.

Escalas diferentes

Os valores de 'culmen_depth_mm' variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g' variam de 2700 a 6300. Por esse motivo, alguns modelos de ML podem considerar a característica 'body_mass_g' muito mais importante do que 'culmen_depth_mm'.

Escalonamento resolve esse problema. Será abordado em capítulos posteriores.

question-icon

Associe o problema à forma de resolvê-lo.

Missing values –
Categorical data –

Different Scales –

Clique ou arraste solte itens e preencha os espaços

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 2
some-alt