Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Overajuste e Regularização | Regressão Logística
Classificação com Python

bookOverajuste e Regularização

Como demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:

E isso com apenas grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, há um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.

Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que o desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.

A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada por padrão na classe LogisticRegression. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:

carousel-imgcarousel-imgcarousel-img
  • maior C - menor regularização, mais overfitting;
  • menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Note
Nota

Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.

A classe LogisticRegression inclui regularização por padrão, portanto, deve-se remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, utilizando StandardScaler).

Note
Nota

Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.

1. Escolha a afirmação INCORRETA.

2. Qual é a ordem correta para pré-processar os dados

question mark

Escolha a afirmação INCORRETA.

Select the correct answer

question mark

Qual é a ordem correta para pré-processar os dados

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 5

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Awesome!

Completion rate improved to 4.17

bookOverajuste e Regularização

Deslize para mostrar o menu

Como demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:

E isso com apenas grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, há um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.

Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que o desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.

A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada por padrão na classe LogisticRegression. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:

carousel-imgcarousel-imgcarousel-img
  • maior C - menor regularização, mais overfitting;
  • menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Note
Nota

Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.

A classe LogisticRegression inclui regularização por padrão, portanto, deve-se remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, utilizando StandardScaler).

Note
Nota

Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.

1. Escolha a afirmação INCORRETA.

2. Qual é a ordem correta para pré-processar os dados

question mark

Escolha a afirmação INCORRETA.

Select the correct answer

question mark

Qual é a ordem correta para pré-processar os dados

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 2. Capítulo 5
some-alt