Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on putkisto | Putkistot
Johdatus koneoppimiseen Pythonilla

bookMikä on putkisto

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muunnossarjalle ja lopulta estimaattorille. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa peräkkäin jokaisen muuntimen .fit_transform()-metodia dataan.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja sen jälkeen voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on Pipeline-rakenteen ensisijainen etu scikit-learnissa datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Awesome!

Completion rate improved to 3.13

bookMikä on putkisto

Pyyhkäise näyttääksesi valikon

Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.

Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.

Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.

Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.

Pipeline toimii säiliönä muunnossarjalle ja lopulta estimaattorille. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa peräkkäin jokaisen muuntimen .fit_transform()-metodia dataan.

# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),  # Step 1: Impute missing values
    ('encoder', OneHotEncoder()),                         # Step 2: Convert categorical data
    ('scaler', StandardScaler())                          # Step 3: Scale the data
])

# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)

Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja sen jälkeen voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.

question mark

Mikä on Pipeline-rakenteen ensisijainen etu scikit-learnissa datan esikäsittelyssä ja mallin koulutuksessa?

Select the correct answer

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 1
some-alt