In dieser Aufgabe wird das **Titanic-Datenset** verwendet, das Informationen über Passagiere der Titanic enthält, darunter Alter, Geschlecht, Familiengröße und mehr. Ziel ist es, vorherzusagen, ob ein Passagier überlebt hat oder nicht.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/b71ff7ac-3932-41d2-a4d8-060e24b00129/titanic.csv') 
print(df.head())

Für die Implementierung des Entscheidungsbaums kann der `DecisionTreeClassifier` aus `sklearn` verwendet werden:

### Konstruktor:
* `DecisionTreeClassifier(max_depth=None, min_samples_leaf=1)`
* `max_depth` — maximale Tiefe des Baums. Standardwert ist None;
* `min_samples_leaf` — minimale Anzahl von Instanzen in einem Blattknoten. Standardwert ist 1;

### Methoden:
* `fit(X, y)` — Trainingsdatensatz anpassen;
* `predict(X)` — Klasse für X vorhersagen;
* `score(X, y)` — Gibt die Genauigkeit für das X, y-Set zurück;

### Attribute:
* `feature_importances_` — Merkmalswichtigkeiten;
* `feature_names_in_` — Merkmalsnamen, die während .fit() gesehen wurden.

Die Aufgabe besteht darin, einen Entscheidungsbaum zu erstellen und mittels Grid Search die optimalen Werte für `max_depth` und `min_samples_leaf` zu bestimmen.

import unittest
import importlib


def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)


class TestUserCode(unittest.TestCase):
    def test_param_grid_is_declared(self):
        import user_code

        _dynamic_test(
            self,
            hasattr(user_code, 'param_grid'),
            "The `param_grid` variable is declared.",
            "Expected `param_grid` to be declared."
        )

    def test_param_grid_is_correct(self):
        import user_code
        expected_value = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'param_grid'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, dict):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `dict`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` contains the correct values.",
            failure_message
        )

    def test_grid_cv_is_declared(self):
        import user_code

        variable = 'grid_cv'
        _dynamic_test(
            self,
            hasattr(user_code, variable),
            f"The `{variable}` variable is declared.",
            f"Expected `{variable}` to be declared."
        )

    def test_grid_cv_is_correct(self):
        import user_code
        from sklearn.model_selection import GridSearchCV
        from sklearn.tree import DecisionTreeClassifier

        param_grid = {'max_depth': [1, 2, 3, 4, 5, 6, 7], 'min_samples_leaf': [1, 2, 4, 6]}

        variable = 'grid_cv'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, GridSearchCV):
            condition = isinstance(actual_value.estimator,
                                   DecisionTreeClassifier) and actual_value.param_grid == param_grid and actual_value.cv is 10
            failure_message = f"Expected `{variable}` to be a `GridSearchCV` with `estimator=DecisionTreeClassifier()`, `param_grid={param_grid}`, and `cv=10`, but got `estimator={actual_value.estimator}`, `param_grid={actual_value.param_grid}`, and `cv={actual_value.cv}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `GridSearchCV`."

        _dynamic_test(
            self,
            condition,
            "`grid_cv` is a `GridSearchCV` with `estimator=lr`, `param_grid=param_grid`, and `cv=None`.",
            failure_message
        )

    def test_best_score_is_correct(self):
        import user_code
        expected_value = 0.8316978776529339

        variable = 'best_score'
        actual_value = getattr(user_code, variable, None)
        if actual_value is None:
            condition = False
            failure_message = f"The `{variable}` variable is not declared."
        elif isinstance(actual_value, float):
            condition = actual_value == expected_value
            failure_message = f"Expected `{variable}` to contain `{expected_value}`, but got `{actual_value}`."
        else:
            condition = False
            failure_message = f"`{variable}` is not a `float`."

        _dynamic_test(
            self,
            condition,
            f"`{variable}` is correct.",
            failure_message
        )


if __name__ == '__main__':
    unittest.main()

test_main.py

Beherrschung der grundlegenden Algorithmen des überwachten Lernens und deren Implementierung mit Scikit-learn. Untersuchung von linearer und polynomialer Regression zur Preisvorhersage sowie Übergang zur Klassifikation mit k-NN, logistischer Regression und Entscheidungsbäumen. Bewertung von Modellen durch Kreuzvalidierung, Steuerung von Overfitting mittels Regularisierung und Optimierung von Hyperparametern. Aufbau robuster prädiktiver Systeme und Definition komplexer Entscheidungsgrenzen für Aufgaben der Mehrklassenklassifikation.

Herausforderung: Implementierung eines Entscheidungsbaums

Konstruktor:

Methoden:

Attribute:

Lösung