Mikä on putkisto
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntamalla tiettyjä sarakkeita ja yhdistämällä ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, täytyy käsitellä täsmälleen samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.
Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja jatkossa voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
Mikä on putkisto
Pyyhkäise näyttääksesi valikon
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntamalla tiettyjä sarakkeita ja yhdistämällä ne takaisin X-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, täytyy käsitellä täsmälleen samojen muunnosten kautta, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn soveltamista johdonmukaisesti sekä koulutusdataan että uusiin havaintoihin.
Pipeline toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsutaan .fit_transform()-metodia Pipeline-oliolle, se soveltaa kunkin muuntimen .fit_transform()-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että .fit_transform() tarvitsee kutsua vain kerran koulutusdatalla, ja jatkossa voidaan käyttää .transform()-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!