Розбиття Вузлів
Під час навчання необхідно знайти найкраще розділення на кожному вузлі дерева рішень. При розділенні даних на два вузли прагнуть до того, щоб різні класи опинилися в окремих вузлах.
- Найкращий випадок: усі точки даних у вузлі належать до одного класу;
- Найгірший випадок: рівна кількість точок даних для кожного класу.
Індекс Джині
Для оцінки якості розділення можна обчислити індекс Джині. Це ймовірність того, що якщо випадково взяти дві точки з вузла (з поверненням), вони будуть різних класів. Чим нижча ця ймовірність (нечистота), тим краще розділення.
Ви можете обчислити індекс Джині для бінарної класифікації за наступною формулою:
gini=1−p02−p12=1−(mm0)2−(mm1)2Де
- mi — кількість екземплярів класу i у вузлі;
- m — кількість екземплярів у вузлі;
- pi=mmi — ймовірність вибору класу i.
А для багатокласової класифікації формула має вигляд:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Де
- C — кількість класів.
Якість розбиття можна оцінити за допомогою зваженої суми індексів Джині для обох вузлів, отриманих після розбиття. Це значення, яке потрібно мінімізувати.
Щоб розділити вузол рішення, необхідно знайти ознаку для розбиття та порогове значення:
На вузлі розгалуження алгоритм жадібно знаходить найкращий поріг для кожної ознаки. Потім обирається розділення з найменшою нечистотою Джіні серед усіх ознак (у разі рівності вибір здійснюється випадково).
Ентропія
Ентропія — це ще одна міра нечистоти. Для задачі бінарної класифікації ентропія H вузла обчислюється за формулою:
H(p)=−plog2(p)−(1−p)log2(1−p)де:
- p — частка позитивних прикладів (клас 1);
- 1−p — частка негативних прикладів (клас 0).
Для багатокласової класифікації ентропія H вузла обчислюється за формулою:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)де:
- k — кількість класів;
- pi — частка прикладів, що належать до класу i у вузлі.
Аналогічно до нечистоти Джіні, якість розділення можна оцінити, обчисливши зважену суму значень ентропії для дочірніх вузлів, отриманих після розділення. Це значення необхідно мінімізувати для максимізації приросту інформації.
Ентропія є максимальною, коли всі класи представлені однаково. Вона є мінімальною (0), коли всі приклади належать до одного класу (чистий вузол).
Дякуємо за ваш відгук!
Запитати АІ
Запитати АІ
Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат
Can you explain the difference between Gini impurity and entropy?
How do you choose between using Gini impurity and entropy in practice?
Can you show an example calculation for Gini impurity or entropy?
Awesome!
Completion rate improved to 4.17
Розбиття Вузлів
Свайпніть щоб показати меню
Під час навчання необхідно знайти найкраще розділення на кожному вузлі дерева рішень. При розділенні даних на два вузли прагнуть до того, щоб різні класи опинилися в окремих вузлах.
- Найкращий випадок: усі точки даних у вузлі належать до одного класу;
- Найгірший випадок: рівна кількість точок даних для кожного класу.
Індекс Джині
Для оцінки якості розділення можна обчислити індекс Джині. Це ймовірність того, що якщо випадково взяти дві точки з вузла (з поверненням), вони будуть різних класів. Чим нижча ця ймовірність (нечистота), тим краще розділення.
Ви можете обчислити індекс Джині для бінарної класифікації за наступною формулою:
gini=1−p02−p12=1−(mm0)2−(mm1)2Де
- mi — кількість екземплярів класу i у вузлі;
- m — кількість екземплярів у вузлі;
- pi=mmi — ймовірність вибору класу i.
А для багатокласової класифікації формула має вигляд:
gini=1−i=0∑Cpi2=1−i=0∑C(mmi)2Де
- C — кількість класів.
Якість розбиття можна оцінити за допомогою зваженої суми індексів Джині для обох вузлів, отриманих після розбиття. Це значення, яке потрібно мінімізувати.
Щоб розділити вузол рішення, необхідно знайти ознаку для розбиття та порогове значення:
На вузлі розгалуження алгоритм жадібно знаходить найкращий поріг для кожної ознаки. Потім обирається розділення з найменшою нечистотою Джіні серед усіх ознак (у разі рівності вибір здійснюється випадково).
Ентропія
Ентропія — це ще одна міра нечистоти. Для задачі бінарної класифікації ентропія H вузла обчислюється за формулою:
H(p)=−plog2(p)−(1−p)log2(1−p)де:
- p — частка позитивних прикладів (клас 1);
- 1−p — частка негативних прикладів (клас 0).
Для багатокласової класифікації ентропія H вузла обчислюється за формулою:
H(p1,p2,…,pk)=−i=1∑kpilog2(pi)де:
- k — кількість класів;
- pi — частка прикладів, що належать до класу i у вузлі.
Аналогічно до нечистоти Джіні, якість розділення можна оцінити, обчисливши зважену суму значень ентропії для дочірніх вузлів, отриманих після розділення. Це значення необхідно мінімізувати для максимізації приросту інформації.
Ентропія є максимальною, коли всі класи представлені однаково. Вона є мінімальною (0), коли всі приклади належать до одного класу (чистий вузол).
Дякуємо за ваш відгук!