Підсумок
Свайпніть щоб показати меню
Підсумовуючи, ви ознайомилися з чотирма алгоритмами: k-NN, логістична регресія, дерево рішень і випадковий ліс. Кожен має свої переваги та недоліки, які були розглянуті наприкінці відповідних розділів.
Наступна візуалізація ілюструє, як кожен алгоритм працює на різних синтетичних наборах даних:
Тут, чим насиченіший колір, тим більш впевнена модель у своїх прогнозах.
Ви помітите, що для кожного набору даних найкраще працює різна модель. Важко заздалегідь знати, яка модель покаже кращий результат, тому найкраща стратегія — спробувати декілька. Саме це і є ідея теореми про відсутність безкоштовного обіду.
Однак у деяких ситуаціях ваше розуміння алгоритмів може допомогти відразу відкинути певні моделі, якщо вони не підходять для задачі.
Наприклад, це стосується логістичної регресії (без використання PolynomialFeatures), яка створює лінійну межу рішень. Тож, дивлячись на складність другого набору даних на зображенні, можна заздалегідь передбачити, що вона не покаже гарних результатів.
Ще один приклад: якщо для вашої задачі потрібна надзвичайно швидка швидкість прогнозування — наприклад, для реального часу в додатку — тоді k-NN є невдалим вибором. Те саме стосується випадкового лісу з великою кількістю дерев рішень. Ви можете зменшити кількість дерев за допомогою параметра n_estimators, щоб підвищити швидкість, але це може призвести до зниження якості.
Наступна таблиця допоможе зрозуміти, яке попереднє опрацювання потрібно виконати перед навчанням кожної моделі, а також як змінюється продуктивність моделі зі збільшенням кількості ознак або об'єктів:
n– кількість екземплярів (зразків);m– кількість ознак;t– кількість дерев у Random Forest;k– кількість сусідів у k-NN;*Масштабування не потрібне, якщоpenalty=Noneу Logistic Regression;**PolynomialFeatures додає більше ознак, тому ефективна кількість ознакmзбільшується.
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат