I denne utfordringen skal du skalere egenskapene i **penguins dataset** (allerede kodet og uten manglende verdier) ved å bruke `StandardScaler`.


import pandas as pd

df = pd.read_csv('https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv')

print(df)

Her er en liten påminnelse om klassen `StandardScaler`.

import unittest
import pandas as pd
import numpy as np

def _dynamic_test(test_case, condition, success_message, failure_message):
    if condition:
        test_case._testMethodName = success_message
        test_case.assertTrue(True, success_message)
    else:
        test_case._testMethodName = failure_message
        test_case.fail(failure_message)

class TestStandardScaler(unittest.TestCase):

    @classmethod
    def setUpClass(cls):
        cls.df_raw = pd.read_csv(
            'https://codefinity-content-media.s3.eu-west-1.amazonaws.com/a65bbc96-309e-4df9-a790-a1eb8c815a1c/penguins_imputed_encoded.csv'
        )
        import user_code
        cls.user_code = user_code

    def test_imports_scaler(self):
        from sklearn.preprocessing import StandardScaler
        uc = self.user_code
        cond = isinstance(getattr(uc, 'scaler', None), StandardScaler)
        _dynamic_test(
            self,
            cond,
            "Used StandardScaler from sklearn.preprocessing",
            "Used StandardScaler from sklearn.preprocessing"
        )

    def test_X_scaled_type(self):
        uc = self.user_code
        cond = isinstance(uc.X, (np.ndarray, pd.DataFrame))
        _dynamic_test(
            self,
            cond,
            "X was transformed using scaler.fit_transform",
            "X was transformed using scaler.fit_transform"
        )

    def test_X_scaled_mean_var(self):
        uc = self.user_code
        X_arr = np.asarray(uc.X)
        mean_close = np.allclose(np.mean(X_arr, axis=0), 0, atol=1e-7)
        var_close = np.allclose(np.var(X_arr, axis=0), 1, atol=1e-7)
        cond = mean_close and var_close
        _dynamic_test(
            self,
            cond,
            "X columns have mean ~0 and variance ~1 after scaling",
            "X columns have mean ~0 and variance ~1 after scaling"
        )

if __name__ == "__main__":
    unittest.main()

test_code.py

Maskinlæring brukes nå overalt. Vil du lære det selv? Dette kurset er en introduksjon til maskinlæring hvor du lærer grunnleggende konsepter, arbeider med Scikit-learn – det mest populære biblioteket for ML, og bygger ditt første maskinlæringsprosjekt.
Kurset er beregnet på studenter med grunnleggende kunnskaper i Python, Pandas og Numpy.

Lær om maskinlæringskonsepter og arbeidsflyten i et ML-prosjekt.

Forbehandling er sannsynligvis den viktigste fasen i et ML-prosjekt. Dette kapittelet dekker forbehandlingsstegene som trengs for nesten alle datasett.

En pipeline er en ryddig måte å kombinere alle forhåndsprosesseringssteg samt en modell. Pipeliner gjør det mye enklere å trene og bruke en modell.

Modellering er den mest spennende fasen i et ML-prosjekt. La oss lære å bygge, finjustere og evaluere modellen!

Utfordring: Skalering av Funksjonene

Utfordring: Skalering av Funksjonene

Løsning