Deslize para mostrar o menu

Conforme demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:

E isso com apenas um grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, existe um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.

Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que apresentar bom desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.

A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada na classe LogisticRegression por padrão. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:

maior C - menor regularização, mais overfitting;
menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Nota

Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.

A classe LogisticRegression inclui regularização por padrão, portanto, você deve remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, usando StandardScaler).

Nota

Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.

1. Escolha a afirmação INCORRETA.

2. Qual é a ordem correta para pré-processar os dados

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 25

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Overajuste e Regularização

maior C - menor regularização, mais overfitting;
menor C - regularização mais forte, menos overfitting (mas possivelmente underfitting).

Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.

Nota

A classe LogisticRegression inclui regularização por padrão, portanto, você deve remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, usando StandardScaler).

Nota

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 1. Capítulo 25