I denne udfordring skal du opbygge og evaluere en model ved hjælp af både train-test split og krydsvalidering på det forbehandlede **penguins dataset**.

Følgende funktioner vil være nyttige:

* `cross_val_score()` fra `sklearn.model_selection`;
* `train_test_split()` fra `sklearn.model_selection`;
* `.fit()` og `.score()` metoderne for modellen.


import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestKNNWithCVAndSplit(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_pipelined.csv'
        )
        cls.X, cls.y = cls.df.drop('species', axis=1), cls.df['species']
        import user_code
        cls.uc = user_code  # Ð¾ÑÑÐºÑÑÑÑÑÑ: model, scores, X_train, X_test, y_train, y_test

    def test_model_is_knn_with_4_neighbors(self):
        from sklearn.neighbors import KNeighborsClassifier
        uc = self.uc
        cond = isinstance(getattr(uc, 'model', None), KNeighborsClassifier) and \
               getattr(uc.model, 'n_neighbors', None) == 4
        _dynamic_test(
            self,
            cond,
            "Model is KNeighborsClassifier with n_neighbors=4",
            "Model must be KNeighborsClassifier with n_neighbors=4"
        )

    def test_cross_val_scores_len_and_cv3(self):
        # ÐÐµÑÐµÐ²ÑÑÑÑÐ¼Ð¾, ÑÐ¾ Ð¾ÑÑÐ¸Ð¼Ð°Ð½Ð¾ ÑÑÐ²Ð½Ð¾ 3 Ð¾ÑÑÐ½ÐºÐ¸ Ñ Ð²Ð¾Ð½Ð¸ ÑÑÐ¼ÑÑÐ½Ñ Ð· cv=3 Ð´Ð»Ñ 4-NN
        from sklearn.model_selection import cross_val_score
        from sklearn.neighbors import KNeighborsClassifier
        uc = self.uc
        scores = getattr(uc, 'scores', None)
        try:
            ok_len = hasattr(scores, '__len__') and len(scores) == 3
            ref = cross_val_score(KNeighborsClassifier(n_neighbors=4), self.X, self.y, cv=3)
            ok_mean_close = np.isfinite(np.mean(scores)).item() and np.isclose(np.mean(scores), np.mean(ref), rtol=0, atol=1e-6)
            cond = ok_len and ok_mean_close
        except Exception:
            cond = False
        _dynamic_test(
            self,
            cond,
            "Cross-validation produced 3-fold scores with cv=3",
            "Cross-validation must use cv=3 and produce 3 scores"
        )

    def test_train_test_split_shapes(self):
        uc = self.uc
        has_vars = all(hasattr(uc, name) for name in ['X_train', 'X_test', 'y_train', 'y_test'])
        if has_vars:
            n_total = len(self.X)
            n_test = len(uc.X_test)
            # ÐÐ¾Ð¿ÑÑÐºÐ°ÑÐ¼Ð¾ Ð¿Ð¾ÑÐ¸Ð±ÐºÑ Ð¾ÐºÑÑÐ³Ð»ÐµÐ½Ð½Ñ Ð¿ÑÐ¸ test_size=0.33
            expected_test = int(round(0.33 * n_total))
            cond = uc.X_train.shape[0] + uc.X_test.shape[0] == n_total and \
                   uc.y_train.shape[0] + uc.y_test.shape[0] == n_total and \
                   abs(n_test - expected_test) <= 2
        else:
            cond = False
        _dynamic_test(
            self,
            cond,
            "Data was split into train and test with approximately 33% for test",
            "Data must be split into train and test with approximately 33% for test"
        )

    def test_model_fitted_and_predicts_on_test(self):
        uc = self.uc
        try:
            y_pred = uc.model.predict(uc.X_test)
            cond = isinstance(y_pred, (np.ndarray, list)) and len(y_pred) == len(uc.y_test)
        except Exception:
            cond = False
        _dynamic_test(
            self,
            cond,
            "Model is fitted and can predict on X_test",
            "Model must be fitted and able to predict on X_test"
        )

    def test_test_score_available(self):
        uc = self.uc
        try:
            score = uc.model.score(uc.X_test, uc.y_test)
            cond = isinstance(score, (float, np.floating)) and np.isfinite(score)
        except Exception:
            cond = False
        _dynamic_test(
            self,
            cond,
            "Test score is available via model.score(X_test, y_test)",
            "Test score must be computed via model.score(X_test, y_test)"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Maskinlæring anvendes nu overalt. Vil du lære det selv? Dette kursus er en introduktion til maskinlæringens verden, hvor du lærer grundlæggende begreber, arbejder med Scikit-learn – det mest populære bibliotek til ML – og bygger dit første maskinlæringsprojekt.
Dette kursus er tiltænkt studerende med grundlæggende kendskab til Python, Pandas og Numpy.

Lær om maskinlæringskoncepter og arbejdsgangen i et ML-projekt.

Forbehandling er sandsynligvis den vigtigste fase i et ML-projekt. Dette kapitel dækker de forbehandlingsskridt, der er nødvendige for næsten ethvert datasæt.

En pipeline er en elegant måde at kombinere alle forbehandlingsskridt samt en model. Pipelines gør det meget nemmere at træne og anvende en model.

Modellering er den mest underholdende fase i et ML-projekt. Lad os lære at opbygge, finjustere og evaluere modellen!

Udfordring: Evaluering af Modellen med Krydsvalidering

Løsning

Udfordring: Evaluering af Modellen med Krydsvalidering

Løsning