Por Que Escalar os Dados?
Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, outro desafio permanece: escalas diferentes de características.
Esse problema não causará erros se você fornecer os dados no estado atual ao modelo, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma característica é 'age'
, variando de 18 a 50, e a segunda característica é 'income'
, variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income'
terá um impacto muito maior no modelo. Portanto, é fundamental que as características tenham aproximadamente o mesmo intervalo para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por diferentes escalas, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é comumente incluído como uma etapa final no pré-processamento.
Como mencionado acima, a escala dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a escala podem fazer com que os dados fiquem sem escala novamente.
O próximo capítulo abordará os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler
, MinMaxScaler
e MaxAbsScaler
.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 3.13
Por Que Escalar os Dados?
Deslize para mostrar o menu
Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, outro desafio permanece: escalas diferentes de características.
Esse problema não causará erros se você fornecer os dados no estado atual ao modelo, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma característica é 'age'
, variando de 18 a 50, e a segunda característica é 'income'
, variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income'
terá um impacto muito maior no modelo. Portanto, é fundamental que as características tenham aproximadamente o mesmo intervalo para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por diferentes escalas, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é comumente incluído como uma etapa final no pré-processamento.
Como mencionado acima, a escala dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a escala podem fazer com que os dados fiquem sem escala novamente.
O próximo capítulo abordará os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler
, MinMaxScaler
e MaxAbsScaler
.
Obrigado pelo seu feedback!