Familiarizando-Se Com o Conjunto de Dados
Vamos iniciar o pré-processamento explorando o conjunto de dados. Ao longo do curso, utilizaremos o conjunto de dados dos pinguins. A tarefa é prever a espécie de um pinguim.
Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:
As características são: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
Os dados estão contidos no arquivo penguins.csv
. Carregaremos este arquivo a partir de um link utilizando a função pd.read_csv()
e analisaremos o conteúdo:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ao analisar este conjunto de dados, já podemos identificar alguns problemas que precisam ser resolvidos. São eles:
- Dados ausentes;
- Variáveis categóricas;
- Escalas diferentes.
Dados Ausentes
A maioria dos algoritmos de ML não consegue lidar automaticamente com valores ausentes, portanto, é necessário removê-los (ou substituí-los por algum valor, processo chamado de imputação) antes de fornecer o conjunto de treinamento para um modelo.
O pandas
preenche células vazias da tabela com NaN
. A maioria dos modelos de ML apresentará erro se existir pelo menos um NaN
nos dados.
Dados categóricos
Os dados contêm dados categóricos, que já sabemos que não podem ser processados por modelos de aprendizado de máquina.
Portanto, é necessário codificar os dados categóricos em valores numéricos.
Escalas diferentes
Os valores de 'culmen_depth_mm'
variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g'
variam de 2700 a 6300. Por esse motivo, alguns modelos de ML podem considerar a característica 'body_mass_g'
muito mais importante do que 'culmen_depth_mm'
.
Escalonamento resolve esse problema. Será abordado em capítulos posteriores.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.13
Familiarizando-Se Com o Conjunto de Dados
Deslize para mostrar o menu
Vamos iniciar o pré-processamento explorando o conjunto de dados. Ao longo do curso, utilizaremos o conjunto de dados dos pinguins. A tarefa é prever a espécie de um pinguim.
Existem três opções possíveis, frequentemente chamadas de classes em aprendizado de máquina:
As características são: 'island'
, 'culmen_depth_mm'
, 'flipper_length_mm'
, 'body_mass_g'
e 'sex'
.
Os dados estão contidos no arquivo penguins.csv
. Carregaremos este arquivo a partir de um link utilizando a função pd.read_csv()
e analisaremos o conteúdo:
12345import pandas as pd df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv') print(df.head(10))
Ao analisar este conjunto de dados, já podemos identificar alguns problemas que precisam ser resolvidos. São eles:
- Dados ausentes;
- Variáveis categóricas;
- Escalas diferentes.
Dados Ausentes
A maioria dos algoritmos de ML não consegue lidar automaticamente com valores ausentes, portanto, é necessário removê-los (ou substituí-los por algum valor, processo chamado de imputação) antes de fornecer o conjunto de treinamento para um modelo.
O pandas
preenche células vazias da tabela com NaN
. A maioria dos modelos de ML apresentará erro se existir pelo menos um NaN
nos dados.
Dados categóricos
Os dados contêm dados categóricos, que já sabemos que não podem ser processados por modelos de aprendizado de máquina.
Portanto, é necessário codificar os dados categóricos em valores numéricos.
Escalas diferentes
Os valores de 'culmen_depth_mm'
variam de 13.1 a 21.5, enquanto os valores de 'body_mass_g'
variam de 2700 a 6300. Por esse motivo, alguns modelos de ML podem considerar a característica 'body_mass_g'
muito mais importante do que 'culmen_depth_mm'
.
Escalonamento resolve esse problema. Será abordado em capítulos posteriores.
Obrigado pelo seu feedback!