Oppiskele Mikä on putkisto

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muunnossarjalle ja lopulta estimaattorille. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa peräkkäin jokaisen muuntimen .fit_transform()-metodia dataan.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja sen jälkeen voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

Pyyhkäise näyttääksesi valikon

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 3. Luku 1