Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Por Que Escalar os Dados? | Pré-Processamento de Dados com Scikit-Learn
Introdução ao ML com Scikit-learn

bookPor Que Escalar os Dados?

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, outro desafio permanece: escalas diferentes de características.

Esse problema não causará erros se você fornecer os dados no estado atual ao modelo, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma característica é 'age', variando de 18 a 50, e a segunda característica é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as características tenham aproximadamente o mesmo intervalo para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por diferentes escalas, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é comumente incluído como uma etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a escala dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a escala podem fazer com que os dados fiquem sem escala novamente.

O próximo capítulo abordará os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante escalonar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 3.13

bookPor Que Escalar os Dados?

Deslize para mostrar o menu

Após tratar valores ausentes e codificar características categóricas, o conjunto de dados está livre de problemas que poderiam causar erros no modelo. No entanto, outro desafio permanece: escalas diferentes de características.

Esse problema não causará erros se você fornecer os dados no estado atual ao modelo, mas pode prejudicar substancialmente alguns modelos de ML.

Considere um exemplo em que uma característica é 'age', variando de 18 a 50, e a segunda característica é 'income', variando de $25,000 a $500,000. É evidente que uma diferença de dez anos na idade é mais significativa do que uma diferença de dez dólares na renda.

No entanto, alguns modelos, como o k-NN (que será utilizado neste curso), podem tratar essas diferenças como igualmente importantes. Consequentemente, a coluna 'income' terá um impacto muito maior no modelo. Portanto, é fundamental que as características tenham aproximadamente o mesmo intervalo para que o k-NN funcione de maneira eficaz.

Embora outros modelos possam ser menos afetados por diferentes escalas, o escalonamento dos dados pode aumentar significativamente a velocidade de processamento. Assim, o escalonamento dos dados é comumente incluído como uma etapa final no pré-processamento.

Note
Nota

Como mencionado acima, a escala dos dados geralmente é a última etapa do pré-processamento. Isso ocorre porque alterações nas variáveis após a escala podem fazer com que os dados fiquem sem escala novamente.

O próximo capítulo abordará os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

question mark

Por que é importante escalonar as variáveis em modelos de aprendizado de máquina como o k-nearest neighbors (KNN)?

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 9
some-alt