Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Overajuste e Regularização | Seção
Practice
Projects
Quizzes & Challenges
Questionários
Challenges
/
Fundamentos do Aprendizado Supervisionado

bookOverajuste e Regularização

Conforme demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:

E isso com apenas um grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, existe um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.

Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que apresentar bom desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.

A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada na classe LogisticRegression por padrão. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:

carousel-imgcarousel-imgcarousel-img
  • maior C - menor regularização, mais overfitting;
  • menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Note
Nota

Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.

A classe LogisticRegression inclui regularização por padrão, portanto, você deve remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, usando StandardScaler).

Note
Nota

Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.

1. Escolha a afirmação INCORRETA.

2. Qual é a ordem correta para pré-processar os dados

question mark

Escolha a afirmação INCORRETA.

Select the correct answer

question mark

Qual é a ordem correta para pré-processar os dados

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 25

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

bookOverajuste e Regularização

Deslize para mostrar o menu

Conforme demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:

E isso com apenas um grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, existe um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.

Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que apresentar bom desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.

A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada na classe LogisticRegression por padrão. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:

carousel-imgcarousel-imgcarousel-img
  • maior C - menor regularização, mais overfitting;
  • menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Note
Nota

Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.

A classe LogisticRegression inclui regularização por padrão, portanto, você deve remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, usando StandardScaler).

Note
Nota

Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.

1. Escolha a afirmação INCORRETA.

2. Qual é a ordem correta para pré-processar os dados

question mark

Escolha a afirmação INCORRETA.

Select the correct answer

question mark

Qual é a ordem correta para pré-processar os dados

Select the correct answer

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 25
some-alt