Overajuste e Regularização
Como demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:
E isso com apenas grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, há um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.
Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que o desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.
A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada por padrão na classe LogisticRegression. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:



- maior
C- menor regularização, mais overfitting; - menor
C- regularização mais forte, menos overfitting (mas possivelmente underfitting).
Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.
Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.
A classe LogisticRegression inclui regularização por padrão, portanto, deve-se remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, utilizando StandardScaler).
Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.
1. Escolha a afirmação INCORRETA.
2. Qual é a ordem correta para pré-processar os dados
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo
Awesome!
Completion rate improved to 4.17
Overajuste e Regularização
Deslize para mostrar o menu
Como demonstrado no capítulo anterior, utilizando PolynomialFeatures, é possível criar uma fronteira de decisão complexa. Características polinomiais de segundo grau podem até mesmo produzir as fronteiras mostradas na imagem abaixo:
E isso com apenas grau dois. Um grau mais alto pode gerar formas ainda mais complexas. No entanto, há um problema nisso. A fronteira de decisão construída pela Regressão Logística pode se tornar excessivamente complicada, levando o modelo ao overfitting.
Overfitting ocorre quando o modelo, em vez de aprender padrões gerais nos dados, constrói uma fronteira de decisão muito complexa para lidar com cada instância de treinamento. Ainda assim, não apresenta bom desempenho em dados nunca vistos, sendo que o desempenho em dados não vistos é uma tarefa fundamental de um modelo de aprendizado de máquina.
A regularização aborda o problema do overfitting. Na verdade, a regularização l2 é utilizada por padrão na classe LogisticRegression. No entanto, é necessário configurar o quão fortemente o modelo deve ser regularizado. Isso é controlado pelo parâmetro C:



- maior
C- menor regularização, mais overfitting; - menor
C- regularização mais forte, menos overfitting (mas possivelmente underfitting).
Os valores de C que resultarão em um bom modelo dependem do conjunto de dados, portanto é melhor escolhê-los usando o GridSearchCV.
Ao utilizar Regressão Logística com regularização, é fundamental escalar seus dados. A regularização penaliza coeficientes grandes e, sem a escala, características com valores maiores podem distorcer os resultados. Na verdade, a escala é quase sempre necessária - mesmo quando a regularização não é utilizada.
A classe LogisticRegression inclui regularização por padrão, portanto, deve-se remover a regularização (definindo penalty=None) ou escalar os dados (por exemplo, utilizando StandardScaler).
Se estiver utilizando tanto PolynomialFeatures quanto StandardScaler, certifique-se de aplicar o StandardScaler após gerar as features polinomiais. Escalar os dados antes da expansão polinomial pode distorcer as features resultantes, pois operações como elevar ao quadrado ou multiplicar valores já padronizados podem levar a distribuições não naturais.
1. Escolha a afirmação INCORRETA.
2. Qual é a ordem correta para pré-processar os dados
Obrigado pelo seu feedback!