Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on putkisto | Putkistot
Koneoppimisen Perusteet Scikit-learnilla

bookMikä on putkisto

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform() vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on scikit-learnin Pipeline-rakenteen ensisijainen etu datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain how to add a model to the pipeline after preprocessing?

What are the benefits of using a pipeline compared to manual preprocessing?

How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?

Awesome!

Completion rate improved to 3.13

bookMikä on putkisto

Pyyhkäise näyttääksesi valikon

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform() vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on scikit-learnin Pipeline-rakenteen ensisijainen etu datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1
some-alt