Impara Che cos'è una pipeline

Nella sezione precedente sono stati completati tre passaggi di pre-elaborazione: imputazione, codifica e normalizzazione.

I passaggi di pre-elaborazione sono stati applicati uno alla volta, trasformando colonne specifiche e reintegrandole nell'array X. Questo approccio può risultare complesso, in particolare con OneHotEncoder, che modifica il numero di colonne.

Un ulteriore svantaggio è che qualsiasi nuovo dato utilizzato per la previsione deve essere sottoposto alla stessa sequenza di trasformazioni, richiedendo la ripetizione dell'intero processo.

La classe Pipeline di Scikit-learn semplifica questa procedura combinando tutte le trasformazioni in un unico flusso di lavoro, facilitando l'applicazione coerente della pre-elaborazione sia ai dati di addestramento sia alle nuove istanze.

Una Pipeline funge da contenitore per una sequenza di trasformatori e, infine, un stimatore. Quando si invoca il metodo .fit_transform() su una Pipeline, essa applica sequenzialmente il metodo .fit_transform() di ciascun trasformatore ai dati.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Questo approccio semplificato implica che è necessario chiamare .fit_transform() una sola volta sul set di addestramento e successivamente utilizzare il metodo .transform() per elaborare nuove istanze.

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1

Chieda ad AI

Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

Scorri per mostrare il menu

Nella sezione precedente sono stati completati tre passaggi di pre-elaborazione: imputazione, codifica e normalizzazione.

Un ulteriore svantaggio è che qualsiasi nuovo dato utilizzato per la previsione deve essere sottoposto alla stessa sequenza di trasformazioni, richiedendo la ripetizione dell'intero processo.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tutto è chiaro?

Grazie per i tuoi commenti!

Sezione 3. Capitolo 1