Щоб підсумувати попередні три розділи, наведено таблицю, яка показує, який **кодувальник** слід використовувати:

`X`, номінальні значення

У цьому завданні використовується **penguins dataset** (без пропущених значень). Усі категоріальні ознаки, включаючи цільову `'species'`, необхідно закодувати для використання в машинному навчанні.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print(df.head())

Зверніть увагу, що `'island'` та `'sex'` — це категоріальні **ознаки**, а `'species'` — категоріальна **ціль**.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestEncoding(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv'
        )
        import user_code
        cls.user_code = user_code

    def test_imports_encoders(self):
        from sklearn.preprocessing import OneHotEncoder, LabelEncoder
        uc = self.user_code
        cond = isinstance(getattr(uc, 'feature_enc', None), OneHotEncoder) and \
               isinstance(getattr(uc, 'label_enc', None), LabelEncoder)
        _dynamic_test(
            self,
            cond,
            "Used OneHotEncoder for features and LabelEncoder for target",
            "Used OneHotEncoder for features and LabelEncoder for target"
        )

    def test_feature_columns_encoded(self):
        uc = self.user_code
        expected = ['island_Biscoe', 'island_Dream', 'island_Torgersen',
                    'sex_FEMALE', 'sex_MALE']
        cond = all(col in uc.X.columns for col in expected)
        _dynamic_test(
            self,
            cond,
            "Encoded columns were added to X",
            "Encoded columns were added to X"
        )

    def test_original_columns_dropped(self):
        uc = self.user_code
        cond = ('island' not in uc.X.columns) and ('sex' not in uc.X.columns)
        _dynamic_test(
            self,
            cond,
            "Original categorical columns were dropped",
            "Original categorical columns were dropped"
        )

    def test_y_encoded(self):
        uc = self.user_code
        y_arr = np.asarray(uc.y)
        is_integer_dtype = np.issubdtype(y_arr.dtype, np.integer)
        le_fitted = hasattr(getattr(uc, 'label_enc', object()), 'classes_')
        cond = (y_arr.ndim == 1) and is_integer_dtype and le_fitted
        _dynamic_test(
            self,
            cond,
            "Target y must be encoded into integers using LabelEncoder",
            "Target y must be encoded into integers using LabelEncoder"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Машинне навчання використовується всюди. Бажаєте опанувати його самостійно? Цей курс є вступом у світ машинного навчання, де ви ознайомитеся з базовими поняттями, попрацюєте з Scikit-learn – найпопулярнішою бібліотекою для машинного навчання, та створите свій перший проєкт з машинного навчання.
Курс призначений для студентів з базовими знаннями Python, Pandas та Numpy.

Ознайомлення з концепціями машинного навчання та робочим процесом проєкту ML.

Попередня обробка є, ймовірно, найважливішим етапом проєкту машинного навчання. У цьому розділі розглядаються кроки попередньої обробки, необхідні для майже будь-якого набору даних.

Конвеєр — це зручний спосіб об'єднати всі етапи попередньої обробки та модель. Конвеєри значно спрощують навчання та використання моделі.

Моделювання — це найцікавіший етап проєкту машинного навчання. Дізнаймося, як створювати, налаштовувати та оцінювати модель!

Завдання: Кодування Категоріальних Змінних

Рішення