Gebruik het originele `penguins.csv`: verwijder eerst de twee rijen met onvoldoende gegevens. Bouw één **preprocessing pipeline** die encodering, imputatie en schaling uitvoert.

Alleen `'sex'` en `'island'` moeten worden gecodeerd, dus gebruik een `ColumnTransformer`. Pas daarna `SimpleImputer` en `StandardScaler` toe op alle features.

Hier volgt een herinnering aan de functies `make_column_transformer()` en `make_pipeline()` die je zult gebruiken.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestPipelineWithColumnTransformer(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins.csv'
        )
        cls.df_raw = cls.df_raw[cls.df_raw.isna().sum(axis=1) < 2]
        import user_code
        cls.user_code = user_code

    def test_import_pipeline(self):
        from sklearn.pipeline import Pipeline, make_pipeline
        uc = self.user_code
        cond = isinstance(getattr(uc, 'pipe', None), (Pipeline,))
        _dynamic_test(
            self,
            cond,
            "Pipeline was created using make_pipeline",
            "Pipeline was created using make_pipeline"
        )

    def test_columntransformer_used(self):
        from sklearn.compose import ColumnTransformer
        uc = self.user_code
        cond = isinstance(getattr(uc, 'ct', None), ColumnTransformer)
        _dynamic_test(
            self,
            cond,
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough",
            "ColumnTransformer was used for 'sex' and 'island' with remainder passthrough"
        )

    def test_pipeline_steps(self):
        uc = self.user_code
        step_names = [name for name, _ in uc.pipe.steps]
        cond = ("columntransformer" in step_names
                and any("simpleimputer" in n for n in step_names)
                and any("standardscaler" in n for n in step_names))
        _dynamic_test(
            self,
            cond,
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler",
            "Pipeline contains ColumnTransformer, SimpleImputer, and StandardScaler"
        )

    def test_X_transformed_shape(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X_transformed)
        cond = X_arr.shape[0] == self.df_raw.shape[0] and X_arr.ndim == 2
        _dynamic_test(
            self,
            cond,
            "X_transformed has correct number of rows and is 2D",
            "X_transformed has correct number of rows and is 2D"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Uitdaging: Het Maken van een Pipeline

Uitdaging: Het Maken van een Pipeline

Oplossing