Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Вивчайте Розбиття Вузлів | Секція
Practice
Projects
Quizzes & Challenges
Вікторини
Challenges
/
Основи Контрольованого Навчання

bookРозбиття Вузлів

Під час навчання необхідно знайти найкраще розділення на кожному вузлі рішення. Коли ми розділяємо дані на два вузли, прагнемо, щоб різні класи опинилися в окремих вузлах.

  • Найкращий випадок: усі точки даних у вузлі належать до одного класу;
  • Найгірший випадок: рівна кількість точок даних для кожного класу.

Імпурність Джині

Щоб оцінити якість розділення, можна обчислити імпурність Джині. Це ймовірність того, що якщо випадково взяти дві точки з вузла (з поверненням), вони будуть різних класів. Чим нижча ця ймовірність (імпурність), тим краще розділення.

Ви можете обчислити індекс Джині для бінарної класифікації за наступною формулою:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Де

  • mim_i — кількість екземплярів класу ii у вузлі;
  • mm — кількість екземплярів у вузлі;
  • pi=mimp_i = \frac{m_i}{m} — ймовірність вибору класу ii.

А для багатокласової класифікації формула має вигляд:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Де

  • CC — кількість класів.

Якість розбиття можна оцінити за допомогою зваженої суми індексів Джині для обох вузлів, отриманих після розбиття. Це значення, яке потрібно мінімізувати.

Щоб розділити вузол рішення, необхідно знайти ознаку для розбиття та порогове значення:

На вузлі розгалуження алгоритм жадібно знаходить найкращий поріг для кожної ознаки. Далі він обирає розділення з найменшою нечіткістю Джині серед усіх ознак (у разі рівності вибір здійснюється випадково).

Ентропія

Ентропія — це ще одна міра нечіткості. Для задачі бінарної класифікації ентропія HH вузла обчислюється за формулою:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

де:

  • pp — частка позитивних прикладів (клас 1);
  • 1p1 - p — частка негативних прикладів (клас 0).

Для задачі багатокласової класифікації ентропія HH вузла обчислюється за формулою:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

де:

  • kk — кількість класів;
  • pip_i — частка прикладів, що належать до класу ii у вузлі.

Аналогічно до нечіткості Джині, якість розділення можна оцінити, обчисливши зважену суму значень ентропії для дочірніх вузлів, отриманих після розділення. Це значення необхідно мінімізувати для максимізації приросту інформації.

Note
Примітка

Ентропія є максимальною, коли всі класи представлені однаково. Вона є мінімальною (0), коли всі приклади належать до одного класу (чистий вузол).

question mark

Оберіть кращий розподіл.

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 28

Запитати АІ

expand

Запитати АІ

ChatGPT

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат

bookРозбиття Вузлів

Свайпніть щоб показати меню

Під час навчання необхідно знайти найкраще розділення на кожному вузлі рішення. Коли ми розділяємо дані на два вузли, прагнемо, щоб різні класи опинилися в окремих вузлах.

  • Найкращий випадок: усі точки даних у вузлі належать до одного класу;
  • Найгірший випадок: рівна кількість точок даних для кожного класу.

Імпурність Джині

Щоб оцінити якість розділення, можна обчислити імпурність Джині. Це ймовірність того, що якщо випадково взяти дві точки з вузла (з поверненням), вони будуть різних класів. Чим нижча ця ймовірність (імпурність), тим краще розділення.

Ви можете обчислити індекс Джині для бінарної класифікації за наступною формулою:

gini=1p02p12=1(m0m)2(m1m)2\text{gini} = 1 - p_0^2 - p_1^2 = 1 - (\frac{m_0}{m})^2 - (\frac{m_1}{m})^2

Де

  • mim_i — кількість екземплярів класу ii у вузлі;
  • mm — кількість екземплярів у вузлі;
  • pi=mimp_i = \frac{m_i}{m} — ймовірність вибору класу ii.

А для багатокласової класифікації формула має вигляд:

gini=1i=0Cpi2=1i=0C(mim)2\text{gini} = 1 - \sum_{i=0}^C p_i^2 = 1 - \sum_{i=0}^C(\frac{m_i}{m})^2

Де

  • CC — кількість класів.

Якість розбиття можна оцінити за допомогою зваженої суми індексів Джині для обох вузлів, отриманих після розбиття. Це значення, яке потрібно мінімізувати.

Щоб розділити вузол рішення, необхідно знайти ознаку для розбиття та порогове значення:

На вузлі розгалуження алгоритм жадібно знаходить найкращий поріг для кожної ознаки. Далі він обирає розділення з найменшою нечіткістю Джині серед усіх ознак (у разі рівності вибір здійснюється випадково).

Ентропія

Ентропія — це ще одна міра нечіткості. Для задачі бінарної класифікації ентропія HH вузла обчислюється за формулою:

H(p)=plog2(p)(1p)log2(1p)H(p) = -p \log_2(p) - (1 - p) \log_2(1 - p)

де:

  • pp — частка позитивних прикладів (клас 1);
  • 1p1 - p — частка негативних прикладів (клас 0).

Для задачі багатокласової класифікації ентропія HH вузла обчислюється за формулою:

H(p1,p2,,pk)=i=1kpilog2(pi)H(p_1, p_2, \dots, p_k) = -\sum_{i=1}^{k} p_i \log_2(p_i)

де:

  • kk — кількість класів;
  • pip_i — частка прикладів, що належать до класу ii у вузлі.

Аналогічно до нечіткості Джині, якість розділення можна оцінити, обчисливши зважену суму значень ентропії для дочірніх вузлів, отриманих після розділення. Це значення необхідно мінімізувати для максимізації приросту інформації.

Note
Примітка

Ентропія є максимальною, коли всі класи представлені однаково. Вона є мінімальною (0), коли всі приклади належать до одного класу (чистий вузол).

question mark

Оберіть кращий розподіл.

Select the correct answer

Все було зрозуміло?

Як ми можемо покращити це?

Дякуємо за ваш відгук!

Секція 1. Розділ 28
some-alt