Resumen
En resumen, has aprendido cuatro algoritmos: k-NN, Regresión Logística, Árbol de Decisión y Bosque Aleatorio. Cada uno tiene sus propias ventajas y desventajas, las cuales se discutieron al final de sus respectivas secciones.
La siguiente visualización ilustra cómo se desempeña cada algoritmo en varios conjuntos de datos sintéticos:
Aquí, cuanto más intenso es el color, mayor es la confianza del modelo en sus predicciones.
Notarás que cada conjunto de datos tiene un modelo diferente que ofrece el mejor rendimiento. Es difícil saber de antemano qué modelo funcionará mejor, por lo que la mejor estrategia es probar varios. Esa es la idea detrás del Teorema No Free Lunch.
Sin embargo, en algunas situaciones, tu comprensión de los algoritmos puede ayudarte a descartar ciertos modelos de antemano si no son adecuados para la tarea.
Por ejemplo, este es el caso de la Regresión Logística (sin utilizar PolynomialFeatures), que sabemos que crea un límite de decisión lineal. Así, al observar la complejidad del segundo conjunto de datos en la imagen, podríamos predecir de antemano que no tendrá un buen desempeño.
Como otro ejemplo, si tu tarea requiere velocidad de predicción extremadamente rápida —como realizar predicciones en tiempo real en una aplicación— entonces k-NN es una mala elección. Lo mismo ocurre con un Bosque Aleatorio con muchos Árboles de Decisión. Podrías reducir el número de árboles usando el parámetro n_estimators para mejorar la velocidad, pero eso podría implicar un menor rendimiento.
La siguiente tabla puede ayudarte a entender qué preprocesamiento se requiere antes de entrenar cada modelo, y cómo se ve afectado el rendimiento del modelo a medida que aumenta el número de características o instancias:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla
Awesome!
Completion rate improved to 4.17
Resumen
Desliza para mostrar el menú
En resumen, has aprendido cuatro algoritmos: k-NN, Regresión Logística, Árbol de Decisión y Bosque Aleatorio. Cada uno tiene sus propias ventajas y desventajas, las cuales se discutieron al final de sus respectivas secciones.
La siguiente visualización ilustra cómo se desempeña cada algoritmo en varios conjuntos de datos sintéticos:
Aquí, cuanto más intenso es el color, mayor es la confianza del modelo en sus predicciones.
Notarás que cada conjunto de datos tiene un modelo diferente que ofrece el mejor rendimiento. Es difícil saber de antemano qué modelo funcionará mejor, por lo que la mejor estrategia es probar varios. Esa es la idea detrás del Teorema No Free Lunch.
Sin embargo, en algunas situaciones, tu comprensión de los algoritmos puede ayudarte a descartar ciertos modelos de antemano si no son adecuados para la tarea.
Por ejemplo, este es el caso de la Regresión Logística (sin utilizar PolynomialFeatures), que sabemos que crea un límite de decisión lineal. Así, al observar la complejidad del segundo conjunto de datos en la imagen, podríamos predecir de antemano que no tendrá un buen desempeño.
Como otro ejemplo, si tu tarea requiere velocidad de predicción extremadamente rápida —como realizar predicciones en tiempo real en una aplicación— entonces k-NN es una mala elección. Lo mismo ocurre con un Bosque Aleatorio con muchos Árboles de Decisión. Podrías reducir el número de árboles usando el parámetro n_estimators para mejorar la velocidad, pero eso podría implicar un menor rendimiento.
La siguiente tabla puede ayudarte a entender qué preprocesamiento se requiere antes de entrenar cada modelo, y cómo se ve afectado el rendimiento del modelo a medida que aumenta el número de características o instancias:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
¡Gracias por tus comentarios!