Використання оригінального файлу `penguins.csv`: спочатку видалення двох рядків з недостатньою кількістю даних. Побудова однієї **конвеєрної обробки даних**, яка виконує кодування, імпутацію та масштабування.

Кодуванню підлягають лише `'sex'` та `'island'`, тому використання `ColumnTransformer`. Після цього застосування `SimpleImputer` та `StandardScaler` до всіх ознак.

Нагадування про функції `make_column_transformer()` та `make_pipeline()`, які будуть використовуватися.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestPipelineWithColumnTransformer(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]
        import user_code
        cls.user_code = user_code

    def test_import_pipeline(self):
        from sklearn.pipeline import Pipeline, make_pipeline
        uc = self.user_code
        cond = isinstance(getattr(uc, 'pipe', None), (Pipeline,))
        _dynamic_test(
            self,
            cond,
            "Pipeline was created using make_pipeline",
            "Pipeline was created using make_pipeline"
        )

    def test_columntransformer_used(self):
        from sklearn.compose import ColumnTransformer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'ct', None), ColumnTransformer)
        _dynamic_test(
            self,
            cond,
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough",
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough"
        )

    def test_pipeline_steps(self):
        uc = self.user_code
        step_names = [name for name, _ in uc.pipe.steps]
        cond = ("columntransformer" in step_names
                and any("simpleimputer" in n for n in step_names)
                and any("standardscaler" in n for n in step_names))
        _dynamic_test(
            self,
            cond,
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler",
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler"
        )

    def test_X_transformed_shape(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X_transformed)
        cond = X_arr.shape[0] == self.df_raw.shape[0] and X_arr.ndim == 2
        _dynamic_test(
            self,
            cond,
            "X_transformed has correct number of rows and is 2D",
            "X_transformed has correct number of rows and is 2D"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Машинне навчання використовується всюди. Бажаєте опанувати його самостійно? Цей курс є вступом у світ машинного навчання, де ви ознайомитеся з базовими поняттями, попрацюєте з Scikit-learn – найпопулярнішою бібліотекою для машинного навчання, та створите свій перший проєкт з машинного навчання.
Курс призначений для студентів з базовими знаннями Python, Pandas та Numpy.

Ознайомлення з концепціями машинного навчання та робочим процесом проєкту ML.

Попередня обробка є, ймовірно, найважливішим етапом проєкту машинного навчання. У цьому розділі розглядаються кроки попередньої обробки, необхідні для майже будь-якого набору даних.

Конвеєр — це зручний спосіб об'єднати всі етапи попередньої обробки та модель. Конвеєри значно спрощують навчання та використання моделі.

Моделювання — це найцікавіший етап проєкту машинного навчання. Дізнаймося, як створювати, налаштовувати та оцінювати модель!

Challenge: Creating a Pipeline

Рішення