Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Escalonamento e Normalização | Técnicas de Transformação de Dados
Pré-Processamento de Dados e Engenharia de Features

bookEscalonamento e Normalização

As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.

As duas principais técnicas de escalonamento são:

  • Normalização: reescala as variáveis para um intervalo fixo, geralmente entre 0 e 1;
  • Padronização: transforma as variáveis para que tenham média 0 e desvio padrão 1.

Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quando Usar Cada Método de Escalonamento

Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.

Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.

question mark

Qual método de escalonamento deve ser escolhido se suas variáveis possuem intervalos muito diferentes e você está utilizando um classificador k-vizinhos mais próximos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 8.33

bookEscalonamento e Normalização

Deslize para mostrar o menu

As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.

As duas principais técnicas de escalonamento são:

  • Normalização: reescala as variáveis para um intervalo fixo, geralmente entre 0 e 1;
  • Padronização: transforma as variáveis para que tenham média 0 e desvio padrão 1.

Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.

1234567891011121314151617181920212223242526272829
import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
copy
Note
Quando Usar Cada Método de Escalonamento

Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.

Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.

question mark

Qual método de escalonamento deve ser escolhido se suas variáveis possuem intervalos muito diferentes e você está utilizando um classificador k-vizinhos mais próximos?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 1
some-alt