Aprenda Normalização de Dados | Conceitos Centrais

Normalização de dados é uma etapa crítica de pré-processamento para muitos algoritmos de clusterização, incluindo o K-means. As variáveis em conjuntos de dados do mundo real frequentemente possuem diferentes escalas e unidades. Algoritmos que dependem de cálculos de distância, como o K-means, podem ser fortemente influenciados por variáveis com escalas maiores. A normalização tem como objetivo trazer todas as variáveis para uma escala semelhante, evitando que variáveis com valores maiores dominem o processo de clusterização.

StandardScaler

StandardScaler padroniza as variáveis removendo a média e escalando para variância unitária. Ele transforma os dados para que tenham média 0 e desvio padrão 1. Isso é feito subtraindo a média e dividindo pelo desvio padrão de cada variável.

StandardScaler é eficaz quando os dados são aproximadamente distribuídos normalmente. É amplamente utilizado e frequentemente considerado um bom método padrão de normalização para muitos algoritmos.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

MinMaxScaler escala as variáveis para um intervalo específico, normalmente entre 0 e 1. Ele transforma os dados escalando e deslocando cada variável individualmente para que fique dentro do intervalo definido.

MinMaxScaler é útil quando é necessário que os valores estejam em um intervalo específico, ou quando os dados não são distribuídos normalmente. Ele preserva o formato da distribuição original, apenas ajustando para o novo intervalo.

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

A escolha entre StandardScaler e MinMaxScaler depende dos dados e do algoritmo específico. StandardScaler é frequentemente preferido para algoritmos como o K-means quando as variáveis são aproximadamente distribuídas normalmente. MinMaxScaler pode ser útil quando são necessários valores limitados ou quando os dados não são distribuídos normalmente.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 3

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 2.94

Deslize para mostrar o menu

StandardScaler

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
features = df[['feature1', 'feature2']]

df[['feature1', 'feature2']] = scaler.fit_transform(features)

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 3