Lære Hva er pipeline

I forrige seksjon ble tre forhåndsbehandlingssteg fullført: imputering, koding og skalering.

Forhåndsbehandlingsstegene ble brukt ett etter ett, hvor spesifikke kolonner ble transformert og deretter slått sammen tilbake i X-arrayet. Denne tilnærmingen kan være tungvint, spesielt med OneHotEncoder, som endrer antall kolonner.

En annen ulempe er at alle nye data som skal brukes til prediksjon må gjennomgå den samme sekvensen av transformasjoner, noe som krever at hele prosessen gjentas.

Pipeline-klassen i Scikit-learn forenkler dette ved å kombinere alle transformasjoner i én arbeidsflyt, noe som gjør det enklere å bruke forhåndsbehandling konsekvent på både treningsdata og nye instanser.

En Pipeline fungerer som en beholder for en sekvens av transformatorer, og til slutt en estimator. Når du kaller .fit_transform()-metoden på en Pipeline, brukes .fit_transform()-metoden til hver transformator sekvensielt på dataene.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Denne strømlinjeformede tilnærmingen betyr at du kun trenger å kalle .fit_transform() én gang på treningssettet og deretter bruke .transform()-metoden for å prosessere nye instanser.

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 3. Kapittel 1

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Awesome!

Completion rate improved to 3.13