Por Que Escalar os Dados?
Após tratar valores ausentes e codificar variáveis categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.
Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam faixas de valores aproximadamente iguais para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.
Como mencionado acima, o escalonamento dos dados geralmente é a última etapa do estágio de pré-processamento. Isso ocorre porque alterações nas variáveis realizadas após o escalonamento podem fazer com que os dados deixem de estar escalonados.
O próximo capítulo abordará os três transformadores mais utilizados para o escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Incrível!
Completion taxa melhorada para 4.55
Por Que Escalar os Dados?
Deslize para mostrar o menu
Após tratar valores ausentes e codificar variáveis categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, ainda resta outro desafio: escalas diferentes entre as variáveis.
Esse problema não causará erros ao alimentar o modelo com os dados no estado atual, mas pode prejudicar substancialmente alguns modelos de ML.
Considere um exemplo em que uma variável é 'age', variando de 18 a 50, e a segunda variável é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.
No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as variáveis possuam faixas de valores aproximadamente iguais para que o k-NN funcione de maneira eficaz.
Embora outros modelos possam ser menos afetados por escalas diferentes, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é frequentemente incluído como etapa final no pré-processamento.
Como mencionado acima, o escalonamento dos dados geralmente é a última etapa do estágio de pré-processamento. Isso ocorre porque alterações nas variáveis realizadas após o escalonamento podem fazer com que os dados deixem de estar escalonados.
O próximo capítulo abordará os três transformadores mais utilizados para o escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.
Obrigado pelo seu feedback!