Tässä haasteessa käytät **Titanic-aineistoa**, joka sisältää tietoja Titanicin matkustajista, kuten iästä, sukupuolesta, perhekoon ja muista tekijöistä. Tavoitteena on ennustaa, selvisikö matkustaja hengissä vai ei.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Päätöspuun toteuttamiseen voit käyttää `DecisionTreeClassifier`-luokkaa kirjastosta `sklearn`:

### Konstruktori:
* `DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)`
* `max_depth` — puun suurin sallittu syvyys. Oletusarvo on None;
* `min_samples_leaf` — pienin sallittu havaintojen määrä lehtisolmussa. Oletusarvo on 1;

### Menetelmät:
* `fit(X, y)` — Sovittaa mallin opetusaineistoon;
* `predict(X)` — Ennustaa luokan X:lle;
* `score(X, y)` — Palauttaa tarkkuuden X, y -aineistolle;

### Attribuutit:
* `feature_importances_` — Ominaisuuksien tärkeysarvot;
* `feature_names_in_` — Ominaisuuksien nimet, jotka havaittu .fit()-menetelmässä.

Tehtävänäsi on rakentaa päätöspuu ja löytää paras `max_depth` ja `min_samples_leaf` käyttämällä ruutuhakua.

import unittest
import importlib


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


class TestUserCode(unittest.TestCase):
    def test_param_grid_is_declared(self):
        import user_code

        _dynamic_test(
            self,
            hasattr(user_code, 'param_grid'),
            "The `param_grid` variable is declared.",
            "Expected `param_grid` to be declared."
        )

    def test_param_grid_is_correct(self):
        import user_code
        expected_value = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'param_grid'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, dict):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `dict`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct values.",
            failure_message
        )

    def test_grid_cv_is_declared(self):
        import user_code

        variable = 'grid_cv'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_grid_cv_is_correct(self):
        import user_code
        from sklearn.model_selection import GridSearchCV
        from sklearn.tree import DecisionTreeClassifier

        param_grid = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'grid_cv'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, GridSearchCV):
            condition = isinstance(actual_value.estimator,
                                   DecisionTreeClassifier) and actual_value.param_grid == param_grid and actual_value.cv is 10
            failure_message = f"Expected `{variable}` to be a `GridSearchCV` with `estimator=DecisionTreeClassifier()`, `param_grid={param_grid}`, and `cv=10`, but got `estimator={actual_value.estimator}`, `param_grid={actual_value.param_grid}`, and `cv={actual_value.cv}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `GridSearchCV`."

        _dynamic_test(
            self,
            condition,
            "`grid_cv` is a `GridSearchCV` with `estimator=lr`, `param_grid=param_grid`, and `cv=None`.",
            failure_message
        )

    def test_best_score_is_correct(self):
        import user_code
        expected_value = 0.8316978776529339

        variable = 'best_score'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, float):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `float`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` is correct.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Hallitse ohjatun oppimisen keskeiset algoritmit ja toteuta ne Scikit-learn-kirjastolla. Tutustu lineaariseen ja polynomiseen regressioon hintojen ennustamisessa sekä siirry luokitteluun käyttäen k-NN:ää, logistista regressiota ja päätöspuita. Opiskele mallien arviointia ristiinvalidoinnilla, hallitse ylisovittamista regularisoinnilla ja optimoi hyperparametreja. Rakenna kestäviä ennustavia järjestelmiä ja määrittele monimutkaisia päätösrajoja moniluokkaluokittelutehtäviin.

Haaste: Päätöspuun Toteuttaminen

Konstruktori:

Menetelmät:

Attribuutit:

Ratkaisu