Ter samenvatting van de vorige drie hoofdstukken, volgt hier een tabel die aangeeft welke **encoder** je moet gebruiken:

In deze uitdaging werk je met de **penguins dataset** (geen ontbrekende waarden). Alle categorische kenmerken — inclusief de target `'species'` — moeten worden gecodeerd voor gebruik in ML.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print(df.head())

Houd er rekening mee dat `'island'` en `'sex'` categorische **kenmerken** zijn en `'species'` een categorisch **doel** is.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestEncoding(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv'
        )
        import user_code
        cls.user_code = user_code

    def test_imports_encoders(self):
        from sklearn.preprocessing import OneHotEncoder, LabelEncoder
        uc = self.user_code
        cond = isinstance(getattr(uc, 'feature_enc', None), OneHotEncoder) and \
               isinstance(getattr(uc, 'label_enc', None), LabelEncoder)
        _dynamic_test(
            self,
            cond,
            "Used OneHotEncoder for features and LabelEncoder for target",
            "Used OneHotEncoder for features and LabelEncoder for target"
        )

    def test_feature_columns_encoded(self):
        uc = self.user_code
        expected = ['island_Biscoe', 'island_Dream', 'island_Torgersen',
                    'sex_FEMALE', 'sex_MALE']
        cond = all(col in uc.X.columns for col in expected)
        _dynamic_test(
            self,
            cond,
            "Encoded columns were added to X",
            "Encoded columns were added to X"
        )

    def test_original_columns_dropped(self):
        uc = self.user_code
        cond = ('island' not in uc.X.columns) and ('sex' not in uc.X.columns)
        _dynamic_test(
            self,
            cond,
            "Original categorical columns were dropped",
            "Original categorical columns were dropped"
        )

    def test_y_encoded(self):
        uc = self.user_code
        y_arr = np.asarray(uc.y)
        is_integer_dtype = np.issubdtype(y_arr.dtype, np.integer)
        le_fitted = hasattr(getattr(uc, 'label_enc', object()), 'classes_')
        cond = (y_arr.ndim == 1) and is_integer_dtype and le_fitted
        _dynamic_test(
            self,
            cond,
            "Target y must be encoded into integers using LabelEncoder",
            "Target y must be encoded into integers using LabelEncoder"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Machine learning wordt tegenwoordig overal toegepast. Wil je het zelf leren? Deze cursus is een introductie tot de wereld van machine learning waarin je basisconcepten leert, werkt met Scikit-learn – de populairste bibliotheek voor ML – en je eerste machine learning-project bouwt.
Deze cursus is bedoeld voor studenten met basiskennis van Python, Pandas en Numpy.

Leer de concepten van machine learning en de workflow van een ML-project.

Preprocessing is waarschijnlijk de belangrijkste fase van een ML-project. Dit hoofdstuk behandelt de preprocessing-stappen die nodig zijn voor vrijwel elke dataset.

Een pipeline is een overzichtelijke manier om alle preprocessingsstappen en een model te combineren. Pipelines maken het veel eenvoudiger om een model te trainen en te gebruiken.

Modellering is de meest interessante fase van een ML-project. Leer het model opbouwen, verfijnen en evalueren!

Uitdaging: Coderen van Categorische Variabelen

Oplossing