Tässä haasteessa skaalaa **penguins dataset** -aineiston piirteet (jo koodattu ja ilman puuttuvia arvoja) käyttäen `StandardScaler`-luokkaa.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv')

print(df)

Tässä on lyhyt muistutus `StandardScaler`-luokasta.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestStandardScaler(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv'
        )
        import user_code
        cls.user_code = user_code

    def test_imports_scaler(self):
        from sklearn.preprocessing import StandardScaler
        uc = self.user_code
        cond = isinstance(getattr(uc, 'scaler', None), StandardScaler)
        _dynamic_test(
            self,
            cond,
            "Used StandardScaler from sklearn.preprocessing",
            "Used StandardScaler from sklearn.preprocessing"
        )

    def test_X_scaled_type(self):
        uc = self.user_code
        cond = isinstance(uc.X, (np.ndarray, pd.DataFrame))
        _dynamic_test(
            self,
            cond,
            "X was transformed using scaler.fit_transform",
            "X was transformed using scaler.fit_transform"
        )

    def test_X_scaled_mean_var(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X)
        mean_close = np.allclose(np.mean(X_arr, axis=0), 0, atol=1e-7)
        var_close = np.allclose(np.var(X_arr, axis=0), 1, atol=1e-7)
        cond = mean_close and var_close
        _dynamic_test(
            self,
            cond,
            "X columns have mean ~0 and variance ~1 after scaling",
            "X columns have mean ~0 and variance ~1 after scaling"
        )

if __name__ == "__main__":
    unittest.main()

test_code.py

Koneoppimista käytetään nykyään kaikkialla. Haluatko oppia sen itse? Tämä kurssi on johdatus koneoppimisen maailmaan, jossa opit peruskäsitteet, työskentelet Scikit-learnin – suosituimman ML-kirjaston – kanssa ja rakennat ensimmäisen koneoppimisprojektisi.
Kurssi on tarkoitettu opiskelijoille, joilla on perustiedot Pythonista, Pandasista ja Numpysta.

Koneoppimisen käsitteiden ja ML-projektin työnkulun oppiminen.

Esikäsittely on todennäköisesti tärkein vaihe ML-projektissa. Tämä luku käsittelee esikäsittelyvaiheet, joita tarvitaan lähes kaikissa aineistoissa.

Putkisto on kätevä tapa yhdistää kaikki esikäsittelyvaiheet sekä malli. Putkistot helpottavat huomattavasti mallin kouluttamista ja käyttöä.

Mallintaminen on ML-projektin viihdyttävin vaihe. Opitaan rakentamaan, hienosäätämään ja arvioimaan mallia!

Challenge: Ominaisuuksien Skaalaaminen

Ratkaisu