Escalonamento e Normalização
As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.
As duas principais técnicas de escalonamento são:
- Normalização: reescala as variáveis para um intervalo fixo, geralmente entre
0e1; - Padronização: transforma as variáveis para que tenham média
0e desvio padrão1.
Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.
Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 8.33
Escalonamento e Normalização
Deslize para mostrar o menu
As variáveis numéricas em seus dados frequentemente apresentam escalas muito diferentes, o que pode prejudicar o desempenho de algoritmos de aprendizado de máquina—especialmente aqueles que utilizam cálculos de distância ou assumem distribuições normais. Escalonamento garante que todas as variáveis contribuam igualmente para o treinamento do modelo.
As duas principais técnicas de escalonamento são:
- Normalização: reescala as variáveis para um intervalo fixo, geralmente entre
0e1; - Padronização: transforma as variáveis para que tenham média
0e desvio padrão1.
Cada método altera o intervalo dos dados de maneira diferente e é mais adequado para cenários específicos.
1234567891011121314151617181920212223242526272829import pandas as pd from sklearn.preprocessing import StandardScaler, MinMaxScaler # Load Titanic dataset from seaborn import seaborn as sns titanic = sns.load_dataset('titanic') # Select numerical features for scaling features = ['age', 'fare', 'sibsp', 'parch'] df = titanic[features].dropna() # Standardization scaler_standard = StandardScaler() df_standardized = pd.DataFrame( scaler_standard.fit_transform(df), columns=df.columns ) # Normalization scaler_minmax = MinMaxScaler() df_normalized = pd.DataFrame( scaler_minmax.fit_transform(df), columns=df.columns ) print("Standardized Data (first 5 rows):") print(df_standardized.head()) print("\nNormalized Data (first 5 rows):") print(df_normalized.head())
Padronização é mais indicada quando os dados seguem uma distribuição Gaussiana (normal), ou quando os algoritmos esperam dados centralizados, como linear regression, logistic regression ou k-means clustering.
Normalização é preferida quando se deseja que todas as variáveis tenham a mesma escala, especialmente para algoritmos que utilizam métricas de distância, como k-nearest neighbors ou neural networks.
Obrigado pelo seu feedback!