Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Resumen | Comparación de Modelos
Clasificación con Python

bookResumen

En resumen, has aprendido cuatro algoritmos: k-NN, Regresión Logística, Árbol de Decisión y Bosque Aleatorio. Cada uno tiene sus propias ventajas y desventajas, las cuales se discutieron al final de sus respectivas secciones.

La siguiente visualización ilustra cómo se desempeña cada algoritmo en varios conjuntos de datos sintéticos:

Aquí, cuanto más intenso es el color, mayor es la confianza del modelo en sus predicciones.

Notarás que cada conjunto de datos tiene un modelo diferente que ofrece el mejor rendimiento. Es difícil saber de antemano qué modelo funcionará mejor, por lo que la mejor estrategia es probar varios. Esa es la idea detrás del Teorema No Free Lunch.

Sin embargo, en algunas situaciones, tu comprensión de los algoritmos puede ayudarte a descartar ciertos modelos de antemano si no son adecuados para la tarea.

Por ejemplo, este es el caso de la Regresión Logística (sin utilizar PolynomialFeatures), que sabemos que crea un límite de decisión lineal. Así, al observar la complejidad del segundo conjunto de datos en la imagen, podríamos predecir de antemano que no tendrá un buen desempeño.

Como otro ejemplo, si tu tarea requiere velocidad de predicción extremadamente rápida —como realizar predicciones en tiempo real en una aplicación— entonces k-NN es una mala elección. Lo mismo ocurre con un Bosque Aleatorio con muchos Árboles de Decisión. Podrías reducir el número de árboles usando el parámetro n_estimators para mejorar la velocidad, pero eso podría implicar un menor rendimiento.

La siguiente tabla puede ayudarte a entender qué preprocesamiento se requiere antes de entrenar cada modelo, y cómo se ve afectado el rendimiento del modelo a medida que aumenta el número de características o instancias:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

¿Qué modelo utiliza múltiples árboles de decisión para realizar una predicción?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 4

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Awesome!

Completion rate improved to 4.17

bookResumen

Desliza para mostrar el menú

En resumen, has aprendido cuatro algoritmos: k-NN, Regresión Logística, Árbol de Decisión y Bosque Aleatorio. Cada uno tiene sus propias ventajas y desventajas, las cuales se discutieron al final de sus respectivas secciones.

La siguiente visualización ilustra cómo se desempeña cada algoritmo en varios conjuntos de datos sintéticos:

Aquí, cuanto más intenso es el color, mayor es la confianza del modelo en sus predicciones.

Notarás que cada conjunto de datos tiene un modelo diferente que ofrece el mejor rendimiento. Es difícil saber de antemano qué modelo funcionará mejor, por lo que la mejor estrategia es probar varios. Esa es la idea detrás del Teorema No Free Lunch.

Sin embargo, en algunas situaciones, tu comprensión de los algoritmos puede ayudarte a descartar ciertos modelos de antemano si no son adecuados para la tarea.

Por ejemplo, este es el caso de la Regresión Logística (sin utilizar PolynomialFeatures), que sabemos que crea un límite de decisión lineal. Así, al observar la complejidad del segundo conjunto de datos en la imagen, podríamos predecir de antemano que no tendrá un buen desempeño.

Como otro ejemplo, si tu tarea requiere velocidad de predicción extremadamente rápida —como realizar predicciones en tiempo real en una aplicación— entonces k-NN es una mala elección. Lo mismo ocurre con un Bosque Aleatorio con muchos Árboles de Decisión. Podrías reducir el número de árboles usando el parámetro n_estimators para mejorar la velocidad, pero eso podría implicar un menor rendimiento.

La siguiente tabla puede ayudarte a entender qué preprocesamiento se requiere antes de entrenar cada modelo, y cómo se ve afectado el rendimiento del modelo a medida que aumenta el número de características o instancias:

  • n – number of instances (samples);
  • m – number of features;
  • t – number of trees in a Random Forest;
  • k – number of neighbors in k-NN;
  • * Scaling is not required if penalty=None in Logistic Regression;
  • ** PolynomialFeatures adds more features, so the effective number of features m increases.
question mark

¿Qué modelo utiliza múltiples árboles de decisión para realizar una predicción?

Select the correct answer

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 4
some-alt