Veeg om het menu te tonen

In de vorige sectie zijn drie preprocessingsstappen uitgevoerd: imputeren, coderen en schalen.

De preprocessingsstappen werden één voor één toegepast, waarbij specifieke kolommen werden getransformeerd en vervolgens weer samengevoegd in de X array. Deze aanpak kan omslachtig zijn, vooral met OneHotEncoder, die het aantal kolommen wijzigt.

Een ander nadeel is dat alle nieuwe data die voor voorspellingen wordt gebruikt, door dezelfde reeks transformaties moet gaan, waardoor het hele proces herhaald moet worden.

De Pipeline-klasse in Scikit-learn vereenvoudigt dit door alle transformaties te combineren in één workflow, waardoor preprocessing consequent kan worden toegepast op zowel trainingsdata als nieuwe voorbeelden.

Een Pipeline fungeert als een container voor een reeks transformatoren en uiteindelijk een estimator. Wanneer je de .fit_transform()-methode aanroept op een Pipeline, wordt de .fit_transform()-methode van elke transformator achtereenvolgens op de data toegepast.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Deze gestroomlijnde aanpak betekent dat je slechts één keer op de trainingsset .fit_transform() hoeft aan te roepen en vervolgens de .transform()-methode kunt gebruiken om nieuwe gevallen te verwerken.

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1

Vraag AI

Vraag wat u wilt of probeer een van de voorgestelde vragen om onze chat te starten.

Wat Is Een Pipeline

In de vorige sectie zijn drie preprocessingsstappen uitgevoerd: imputeren, coderen en schalen.

Een ander nadeel is dat alle nieuwe data die voor voorspellingen wordt gebruikt, door dezelfde reeks transformaties moet gaan, waardoor het hele proces herhaald moet worden.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Was alles duidelijk?

Bedankt voor je feedback!

Sectie 3. Hoofdstuk 1