Завдання: Реалізація Дерева Рішень

У цьому завданні ви будете використовувати набір даних Titanic, який містить інформацію про пасажирів Титаніка, включаючи їхній вік, стать, розмір сім'ї та інше. Мета — передбачити, чи вижив пасажир, чи ні.


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Для реалізації дерева рішень можна використати DecisionTreeClassifier з бібліотеки sklearn:

Конструктор:

DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)
max_depth — максимальна глибина дерева. Значення за замовчуванням — None;
min_samples_leaf — мінімальна кількість екземплярів у листовій вершині. Значення за замовчуванням — 1;

Методи:

fit(X, y) — навчання на тренувальній вибірці;
predict(X) — прогнозування класу для X;
score(X, y) — повертає точність для набору X, y;

Атрибути:

feature_importances_ — важливість ознак;
feature_names_in_ — імена ознак, які були використані під час .fit().

Ваше завдання — побудувати дерево рішень і знайти оптимальні значення max_depth та min_samples_leaf за допомогою перебору по сітці.

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 30

single

Свайпніть щоб показати меню

У цьому завданні ви будете використовувати набір даних Titanic, який містить інформацію про пасажирів Титаніка, включаючи їхній вік, стать, розмір сім'ї та інше. Мета — передбачити, чи вижив пасажир, чи ні.


              1234
            
import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Для реалізації дерева рішень можна використати DecisionTreeClassifier з бібліотеки sklearn:

Конструктор:

DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)
max_depth — максимальна глибина дерева. Значення за замовчуванням — None;
min_samples_leaf — мінімальна кількість екземплярів у листовій вершині. Значення за замовчуванням — 1;

Методи:

fit(X, y) — навчання на тренувальній вибірці;
predict(X) — прогнозування класу для X;
score(X, y) — повертає точність для набору X, y;

Атрибути:

feature_importances_ — важливість ознак;
feature_names_in_ — імена ознак, які були використані під час .fit().

Ваше завдання — побудувати дерево рішень і знайти оптимальні значення max_depth та min_samples_leaf за допомогою перебору по сітці.

Завдання

Проведіть, щоб почати кодувати

Вам надано датасет Titanic, збережений як DataFrame у змінній df.

Ініціалізуйте модель дерева рішень і збережіть її у змінній decision_tree.
Створіть словник для GridSearchCV, щоб перебирати значення [1, 2, 3, 4, 5, 6, 7] для max_depth та [1, 2, 4, 6] для min_samples_leaf, і збережіть його у змінній param_grid.
Ініціалізуйте та навчіть об'єкт GridSearchCV, встановіть кількість фолдів на 10, і збережіть навчений модель у змінній grid_cv.

Рішення

Перейдіть на комп'ютер для реальної практикиПродовжуйте з того місця, де ви зупинились, використовуючи один з наведених нижче варіантів

Все було зрозуміло?

Дякуємо за ваш відгук!

Секція 1. Розділ 30

single

Запитати АІ

Запитайте про що завгодно або спробуйте одне із запропонованих запитань, щоб почати наш чат