To summarize the previous three chapters, here is a table showing what **encoder** you should use:

In this challenge, you work with the **penguins dataset** (no missing values). All categorical features — including the target `'species'` — must be encoded for ML use.

import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv')

print(df.head())

Keep in mind that `'island'` and `'sex'` are categorical **features** and `'species'` is a categorical **target**.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestEncoding(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed.csv'
        )
        import user_code
        cls.user_code = user_code

    def test_imports_encoders(self):
        from sklearn.preprocessing import OneHotEncoder, LabelEncoder
        uc = self.user_code
        cond = isinstance(getattr(uc, 'feature_enc', None), OneHotEncoder) and \
               isinstance(getattr(uc, 'label_enc', None), LabelEncoder)
        _dynamic_test(
            self,
            cond,
            "Used OneHotEncoder for features and LabelEncoder for target",
            "Used OneHotEncoder for features and LabelEncoder for target"
        )

    def test_feature_columns_encoded(self):
        uc = self.user_code
        expected = ['island_Biscoe', 'island_Dream', 'island_Torgersen',
                    'sex_FEMALE', 'sex_MALE']
        cond = all(col in uc.X.columns for col in expected)
        _dynamic_test(
            self,
            cond,
            "Encoded columns were added to X",
            "Encoded columns were added to X"
        )

    def test_original_columns_dropped(self):
        uc = self.user_code
        cond = ('island' not in uc.X.columns) and ('sex' not in uc.X.columns)
        _dynamic_test(
            self,
            cond,
            "Original categorical columns were dropped",
            "Original categorical columns were dropped"
        )

    def test_y_encoded(self):
        uc = self.user_code
        y_arr = np.asarray(uc.y)
        is_integer_dtype = np.issubdtype(y_arr.dtype, np.integer)
        le_fitted = hasattr(getattr(uc, 'label_enc', object()), 'classes_')
        cond = (y_arr.ndim == 1) and is_integer_dtype and le_fitted
        _dynamic_test(
            self,
            cond,
            "Target y must be encoded into integers using LabelEncoder",
            "Target y must be encoded into integers using LabelEncoder"
        )

if __name__ == "__main__":
    unittest.main()


test_code.py

Machine learning drives modern technological innovation across all industries. Embark on a comprehensive introduction to predictive modeling by mastering foundational algorithmic concepts utilizing Scikit-Learn. Participants will construct robust classifiers, evaluate performance metrics, ultimately culminating in the development of a complete predictive project.

Challenge: Encoding Categorical Variables

Oplossing