Mikä on putkisto
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.
Pipeline toimii säiliönä muunnossarjalle ja lopulta estimaattorille. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa peräkkäin jokaisen muuntimen .fit_transform()-metodia dataan.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja sen jälkeen voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Mikä on putkisto
Pyyhkäise näyttääksesi valikon
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.
Pipeline toimii säiliönä muunnossarjalle ja lopulta estimaattorille. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa peräkkäin jokaisen muuntimen .fit_transform()-metodia dataan.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja sen jälkeen voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!