Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Sobreajuste y Regularización | Regresión Logística
Clasificación con Python

bookSobreajuste y Regularización

Como se demostró en el capítulo anterior, utilizando PolynomialFeatures, es posible crear un límite de decisión complejo. Las características polinómicas de segundo grado incluso pueden producir los límites mostrados en la imagen a continuación:

Y esto es solo con un grado de dos. Un grado mayor puede generar formas aún más complejas. Sin embargo, esto presenta un problema. El límite de decisión construido por la Regresión Logística puede volverse demasiado complicado, lo que provoca sobreajuste en el modelo.

El sobreajuste ocurre cuando el modelo, en lugar de aprender patrones generales en los datos, construye un límite de decisión muy complejo para manejar cada instancia de entrenamiento. Sin embargo, no tiene un buen desempeño con datos que nunca ha visto, mientras que el desempeño en datos no vistos es una tarea principal de un modelo de aprendizaje automático.

La regularización aborda el problema del sobreajuste. De hecho, la regularización l2 se utiliza en la clase LogisticRegression de forma predeterminada. Sin embargo, es necesario configurar la intensidad con la que se debe regularizar el modelo. Esto se controla mediante el parámetro C:

carousel-imgcarousel-imgcarousel-img
  • mayor C - menor regularización, mayor sobreajuste;
  • menor C - regularización más fuerte, menor sobreajuste (pero posiblemente subajuste).

Los valores de C que resultan en un buen modelo dependen del conjunto de datos, por lo que es preferible seleccionarlo utilizando GridSearchCV.

Note
Nota

Al utilizar Regresión Logística con regularización, es fundamental escalar los datos. La regularización penaliza los coeficientes grandes y, sin escalado, las características con valores mayores pueden distorsionar los resultados. De hecho, el escalado casi siempre es necesario, incluso cuando no se utiliza regularización.

La clase LogisticRegression incluye regularización por defecto, por lo que se debe eliminar la regularización (estableciendo penalty=None) o escalar los datos (por ejemplo, utilizando StandardScaler).

Note
Nota

Si se utilizan tanto PolynomialFeatures como StandardScaler, asegúrese de aplicar StandardScaler después de generar las características polinómicas. Escalar los datos antes de la expansión polinómica puede distorsionar las características resultantes, ya que operaciones como elevar al cuadrado o multiplicar valores ya estandarizados pueden conducir a distribuciones no naturales.

1. Elija la afirmación INCORRECTA.

2. ¿Cuál es el orden correcto para preprocesar los datos?

question mark

Elija la afirmación INCORRECTA.

Select the correct answer

question mark

¿Cuál es el orden correcto para preprocesar los datos?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 5

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.17

bookSobreajuste y Regularización

Desliza para mostrar el menú

Como se demostró en el capítulo anterior, utilizando PolynomialFeatures, es posible crear un límite de decisión complejo. Las características polinómicas de segundo grado incluso pueden producir los límites mostrados en la imagen a continuación:

Y esto es solo con un grado de dos. Un grado mayor puede generar formas aún más complejas. Sin embargo, esto presenta un problema. El límite de decisión construido por la Regresión Logística puede volverse demasiado complicado, lo que provoca sobreajuste en el modelo.

El sobreajuste ocurre cuando el modelo, en lugar de aprender patrones generales en los datos, construye un límite de decisión muy complejo para manejar cada instancia de entrenamiento. Sin embargo, no tiene un buen desempeño con datos que nunca ha visto, mientras que el desempeño en datos no vistos es una tarea principal de un modelo de aprendizaje automático.

La regularización aborda el problema del sobreajuste. De hecho, la regularización l2 se utiliza en la clase LogisticRegression de forma predeterminada. Sin embargo, es necesario configurar la intensidad con la que se debe regularizar el modelo. Esto se controla mediante el parámetro C:

carousel-imgcarousel-imgcarousel-img
  • mayor C - menor regularización, mayor sobreajuste;
  • menor C - regularización más fuerte, menor sobreajuste (pero posiblemente subajuste).

Los valores de C que resultan en un buen modelo dependen del conjunto de datos, por lo que es preferible seleccionarlo utilizando GridSearchCV.

Note
Nota

Al utilizar Regresión Logística con regularización, es fundamental escalar los datos. La regularización penaliza los coeficientes grandes y, sin escalado, las características con valores mayores pueden distorsionar los resultados. De hecho, el escalado casi siempre es necesario, incluso cuando no se utiliza regularización.

La clase LogisticRegression incluye regularización por defecto, por lo que se debe eliminar la regularización (estableciendo penalty=None) o escalar los datos (por ejemplo, utilizando StandardScaler).

Note
Nota

Si se utilizan tanto PolynomialFeatures como StandardScaler, asegúrese de aplicar StandardScaler después de generar las características polinómicas. Escalar los datos antes de la expansión polinómica puede distorsionar las características resultantes, ya que operaciones como elevar al cuadrado o multiplicar valores ya estandarizados pueden conducir a distribuciones no naturales.

1. Elija la afirmación INCORRECTA.

2. ¿Cuál es el orden correcto para preprocesar los datos?

question mark

Elija la afirmación INCORRECTA.

Select the correct answer

question mark

¿Cuál es el orden correcto para preprocesar los datos?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 5
some-alt