Conteúdo do Curso
Clustering Demystified
Clustering Demystified
Escalonamento de Características
O escalamento de características é uma técnica utilizada para padronizar a amplitude das variáveis independentes ou características dos dados. Em aprendizado de máquina, é uma etapa do pré-processamento de dados que visa normalizar as dimensões dos dados, de forma que estejam em uma escala similar. Isso é importante porque vários algoritmos de aprendizado de máquina usam alguma forma de medida de distância, como a distância Euclidiana, para comparar as observações. Se a escala dos dados não for consistente, certas características terão uma influência muito maior na medida de distância do que outras, o que pode levar a um desempenho insatisfatório em alguns algoritmos de aprendizado de máquina.
Existem diferentes maneiras de realizar o escalamento de características, tais como normalização, padronização e escalamento Min-Max.
- O escalamento Min-Max redimensiona os dados para um intervalo específico, geralmente entre 0 e 1;
- A padronização redimensiona os dados de modo que tenham uma média de 0 e um desvio padrão de 1;
- A normalização redimensiona os dados de forma que tenham um valor mínimo de 0 e um valor máximo de 1.
É importante notar que o escalamento de características deve ser feito apenas nas variável(eis) independentes e não na variável dependente.
TarefaConcluído
- Importe o módulo
MinMaxScaler
; - Crie uma instância de
MinMaxScaler()
; - Crie um novo DataFrame com as colunas escalonadas.
Tudo estava claro?
Conteúdo do Curso
Clustering Demystified
Clustering Demystified
Escalonamento de Características
O escalamento de características é uma técnica utilizada para padronizar a amplitude das variáveis independentes ou características dos dados. Em aprendizado de máquina, é uma etapa do pré-processamento de dados que visa normalizar as dimensões dos dados, de forma que estejam em uma escala similar. Isso é importante porque vários algoritmos de aprendizado de máquina usam alguma forma de medida de distância, como a distância Euclidiana, para comparar as observações. Se a escala dos dados não for consistente, certas características terão uma influência muito maior na medida de distância do que outras, o que pode levar a um desempenho insatisfatório em alguns algoritmos de aprendizado de máquina.
Existem diferentes maneiras de realizar o escalamento de características, tais como normalização, padronização e escalamento Min-Max.
- O escalamento Min-Max redimensiona os dados para um intervalo específico, geralmente entre 0 e 1;
- A padronização redimensiona os dados de modo que tenham uma média de 0 e um desvio padrão de 1;
- A normalização redimensiona os dados de forma que tenham um valor mínimo de 0 e um valor máximo de 1.
É importante notar que o escalamento de características deve ser feito apenas nas variável(eis) independentes e não na variável dependente.
TarefaConcluído
- Importe o módulo
MinMaxScaler
; - Crie uma instância de
MinMaxScaler()
; - Crie um novo DataFrame com as colunas escalonadas.
Tudo estava claro?