Sobreajuste y Regularización
Como se demostró en el capítulo anterior, utilizando PolynomialFeatures, es posible crear un límite de decisión complejo. Las características polinómicas de segundo grado incluso pueden producir los límites mostrados en la imagen a continuación:
Y esto es solo con un grado de dos. Un grado mayor puede generar formas aún más complejas. Sin embargo, esto presenta un problema. El límite de decisión construido por la Regresión Logística puede volverse demasiado complicado, lo que provoca sobreajuste en el modelo.
El sobreajuste ocurre cuando el modelo, en lugar de aprender patrones generales en los datos, construye un límite de decisión muy complejo para manejar cada instancia de entrenamiento. Sin embargo, no tiene un buen desempeño con datos que nunca ha visto, mientras que el desempeño en datos no vistos es una tarea principal de un modelo de aprendizaje automático.
La regularización aborda el problema del sobreajuste. De hecho, la regularización l2 se utiliza en la clase LogisticRegression de forma predeterminada. Sin embargo, es necesario configurar la intensidad con la que se debe regularizar el modelo. Esto se controla mediante el parámetro C:



- mayor
C- menor regularización, mayor sobreajuste; - menor
C- regularización más fuerte, menor sobreajuste (pero posiblemente subajuste).
Los valores de C que resultan en un buen modelo dependen del conjunto de datos, por lo que es preferible seleccionarlo utilizando GridSearchCV.
Al utilizar Regresión Logística con regularización, es fundamental escalar los datos. La regularización penaliza los coeficientes grandes y, sin escalado, las características con valores mayores pueden distorsionar los resultados. De hecho, el escalado casi siempre es necesario, incluso cuando no se utiliza regularización.
La clase LogisticRegression incluye regularización por defecto, por lo que se debe eliminar la regularización (estableciendo penalty=None) o escalar los datos (por ejemplo, utilizando StandardScaler).
Si se utilizan tanto PolynomialFeatures como StandardScaler, asegúrese de aplicar StandardScaler después de generar las características polinómicas. Escalar los datos antes de la expansión polinómica puede distorsionar las características resultantes, ya que operaciones como elevar al cuadrado o multiplicar valores ya estandarizados pueden conducir a distribuciones no naturales.
1. Elija la afirmación INCORRECTA.
2. ¿Cuál es el orden correcto para preprocesar los datos?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4.17
Sobreajuste y Regularización
Desliza para mostrar el menú
Como se demostró en el capítulo anterior, utilizando PolynomialFeatures, es posible crear un límite de decisión complejo. Las características polinómicas de segundo grado incluso pueden producir los límites mostrados en la imagen a continuación:
Y esto es solo con un grado de dos. Un grado mayor puede generar formas aún más complejas. Sin embargo, esto presenta un problema. El límite de decisión construido por la Regresión Logística puede volverse demasiado complicado, lo que provoca sobreajuste en el modelo.
El sobreajuste ocurre cuando el modelo, en lugar de aprender patrones generales en los datos, construye un límite de decisión muy complejo para manejar cada instancia de entrenamiento. Sin embargo, no tiene un buen desempeño con datos que nunca ha visto, mientras que el desempeño en datos no vistos es una tarea principal de un modelo de aprendizaje automático.
La regularización aborda el problema del sobreajuste. De hecho, la regularización l2 se utiliza en la clase LogisticRegression de forma predeterminada. Sin embargo, es necesario configurar la intensidad con la que se debe regularizar el modelo. Esto se controla mediante el parámetro C:



- mayor
C- menor regularización, mayor sobreajuste; - menor
C- regularización más fuerte, menor sobreajuste (pero posiblemente subajuste).
Los valores de C que resultan en un buen modelo dependen del conjunto de datos, por lo que es preferible seleccionarlo utilizando GridSearchCV.
Al utilizar Regresión Logística con regularización, es fundamental escalar los datos. La regularización penaliza los coeficientes grandes y, sin escalado, las características con valores mayores pueden distorsionar los resultados. De hecho, el escalado casi siempre es necesario, incluso cuando no se utiliza regularización.
La clase LogisticRegression incluye regularización por defecto, por lo que se debe eliminar la regularización (estableciendo penalty=None) o escalar los datos (por ejemplo, utilizando StandardScaler).
Si se utilizan tanto PolynomialFeatures como StandardScaler, asegúrese de aplicar StandardScaler después de generar las características polinómicas. Escalar los datos antes de la expansión polinómica puede distorsionar las características resultantes, ya que operaciones como elevar al cuadrado o multiplicar valores ya estandarizados pueden conducir a distribuciones no naturales.
1. Elija la afirmación INCORRECTA.
2. ¿Cuál es el orden correcto para preprocesar los datos?
¡Gracias por tus comentarios!