Підсумок
Підсумовуючи, ви ознайомилися з чотирма алгоритмами: k-NN, логістична регресія, дерево рішень та випадковий ліс. Кожен з них має свої переваги та недоліки, які були розглянуті наприкінці відповідних розділів.
Наступна візуалізація ілюструє, як кожен алгоритм працює на різних синтетичних наборах даних:
Тут, чим насиченіший колір, тим більш впевнена модель у своїх прогнозах.
Ви помітите, що для кожного набору даних найкраще працює різна модель. Важко заздалегідь визначити, яка модель покаже кращий результат, тому найкраща стратегія — спробувати декілька. Саме це і є ідеєю Теореми про відсутність безкоштовного обіду.
Однак у деяких випадках ваше розуміння алгоритмів може допомогти заздалегідь виключити певні моделі, якщо вони не підходять для завдання.
Наприклад, це стосується логістичної регресії (без використання PolynomialFeatures), яка створює лінійну межу рішень. Тому, дивлячись на складність другого набору даних на зображенні, можна передбачити, що вона не покаже гарних результатів.
Ще один приклад: якщо для вашого завдання потрібна надзвичайно швидка швидкість прогнозування — наприклад, для реального часу в додатку — тоді k-NN є невдалим вибором. Те саме стосується випадкового лісу з великою кількістю дерев рішень. Можна зменшити кількість дерев за допомогою параметра n_estimators, щоб підвищити швидкість, але це може призвести до зниження продуктивності.
Наступна таблиця допоможе зрозуміти, яке попереднє опрацювання потрібно виконати перед навчанням кожної моделі, а також як змінюється продуктивність моделі зі збільшенням кількості ознак або зразків:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain what "requires scaling" means for these models?
How do I decide which algorithm to use for my dataset?
Can you clarify the meaning of the training and prediction complexity notations?
Awesome!
Completion rate improved to 4.17
Підсумок
Свайпніть щоб показати меню
Підсумовуючи, ви ознайомилися з чотирма алгоритмами: k-NN, логістична регресія, дерево рішень та випадковий ліс. Кожен з них має свої переваги та недоліки, які були розглянуті наприкінці відповідних розділів.
Наступна візуалізація ілюструє, як кожен алгоритм працює на різних синтетичних наборах даних:
Тут, чим насиченіший колір, тим більш впевнена модель у своїх прогнозах.
Ви помітите, що для кожного набору даних найкраще працює різна модель. Важко заздалегідь визначити, яка модель покаже кращий результат, тому найкраща стратегія — спробувати декілька. Саме це і є ідеєю Теореми про відсутність безкоштовного обіду.
Однак у деяких випадках ваше розуміння алгоритмів може допомогти заздалегідь виключити певні моделі, якщо вони не підходять для завдання.
Наприклад, це стосується логістичної регресії (без використання PolynomialFeatures), яка створює лінійну межу рішень. Тому, дивлячись на складність другого набору даних на зображенні, можна передбачити, що вона не покаже гарних результатів.
Ще один приклад: якщо для вашого завдання потрібна надзвичайно швидка швидкість прогнозування — наприклад, для реального часу в додатку — тоді k-NN є невдалим вибором. Те саме стосується випадкового лісу з великою кількістю дерев рішень. Можна зменшити кількість дерев за допомогою параметра n_estimators, щоб підвищити швидкість, але це може призвести до зниження продуктивності.
Наступна таблиця допоможе зрозуміти, яке попереднє опрацювання потрібно виконати перед навчанням кожної моделі, а також як змінюється продуктивність моделі зі збільшенням кількості ознак або зразків:
n– number of instances (samples);m– number of features;t– number of trees in a Random Forest;k– number of neighbors in k-NN;*Scaling is not required ifpenalty=Nonein Logistic Regression;**PolynomialFeatures adds more features, so the effective number of featuresmincreases.
Дякуємо за ваш відгук!