Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Por Que Escalar os Dados? | Preprocessing Data with Scikit-learn
ML Introduction with scikit-learn

Por Que Escalar os Dados?Por Que Escalar os Dados?

Agora que lidamos com valores ausentes e codificamos características categóricas, resolvemos todos os problemas que causariam um erro quando inseridos no modelo. Mas há mais um problema que mencionamos, as diferentes escalas.

Este problema não causará erros se você fornecer os dados do estado atual ao modelo. No entanto, pode piorar consideravelmente alguns modelos de Machine Learning (ML).

Considere um exemplo onde uma característica é a 'idade', e a segunda característica é a 'renda'. A primeira característica varia de 18 a 50 anos, e a segunda de 25.000 a 500.000. Podemos perceber que uma diferença de dez anos é mais significativa do que uma diferença de dez dólares. No entanto, alguns modelos (como o k-NN que usaremos neste curso) considerarão essa diferença com a mesma importância. Como resultado, a coluna 'renda' terá um impacto muito mais significativo no modelo. Por isso, precisamos que as características tenham aproximadamente a mesma faixa para que o k-NN funcione corretamente. Outros modelos são menos afetados por escalas diferentes, mas alguns funcionam muito mais rápido quando os dados são escalonados. Assim, o escalonamento de dados geralmente é incluído no pré-processamento como um último passo.

Nota

Como mencionado acima, o escalonamento de dados é geralmente o último passo da etapa de pré-processamento. Isso acontece porque alterações nas características feitas após o escalonamento podem deixar os dados desescalados novamente.

O próximo capítulo cobrirá os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

Tudo estava claro?

Seção 2. Capítulo 9
course content

Conteúdo do Curso

ML Introduction with scikit-learn

Por Que Escalar os Dados?Por Que Escalar os Dados?

Agora que lidamos com valores ausentes e codificamos características categóricas, resolvemos todos os problemas que causariam um erro quando inseridos no modelo. Mas há mais um problema que mencionamos, as diferentes escalas.

Este problema não causará erros se você fornecer os dados do estado atual ao modelo. No entanto, pode piorar consideravelmente alguns modelos de Machine Learning (ML).

Considere um exemplo onde uma característica é a 'idade', e a segunda característica é a 'renda'. A primeira característica varia de 18 a 50 anos, e a segunda de 25.000 a 500.000. Podemos perceber que uma diferença de dez anos é mais significativa do que uma diferença de dez dólares. No entanto, alguns modelos (como o k-NN que usaremos neste curso) considerarão essa diferença com a mesma importância. Como resultado, a coluna 'renda' terá um impacto muito mais significativo no modelo. Por isso, precisamos que as características tenham aproximadamente a mesma faixa para que o k-NN funcione corretamente. Outros modelos são menos afetados por escalas diferentes, mas alguns funcionam muito mais rápido quando os dados são escalonados. Assim, o escalonamento de dados geralmente é incluído no pré-processamento como um último passo.

Nota

Como mencionado acima, o escalonamento de dados é geralmente o último passo da etapa de pré-processamento. Isso acontece porque alterações nas características feitas após o escalonamento podem deixar os dados desescalados novamente.

O próximo capítulo cobrirá os três transformadores mais utilizados para escalonamento de dados. São eles: StandardScaler, MinMaxScaler e MaxAbsScaler.

Tudo estava claro?

Seção 2. Capítulo 9
some-alt