Mikä on putkisto
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X
-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder
-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline
-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.
Pipeline
toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()
-metodia Pipeline
-oliolle, se soveltaa kunkin muuntimen .fit_transform()
-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform()
vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()
-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain how to add a model to the pipeline after preprocessing?
What are the benefits of using a pipeline compared to manual preprocessing?
How do I handle different preprocessing steps for numerical and categorical columns in a pipeline?
Awesome!
Completion rate improved to 3.13
Mikä on putkisto
Pyyhkäise näyttääksesi valikon
Edellisessä osiossa suoritettiin kolme esikäsittelyvaihetta: imputointi, koodaus ja skaalaus.
Esikäsittelyvaiheet toteutettiin yksi kerrallaan, muuntaen tiettyjä sarakkeita ja yhdistäen ne takaisin X
-taulukkoon. Tämä lähestymistapa voi olla hankala, erityisesti OneHotEncoder
-muuntimen kanssa, joka muuttaa sarakkeiden määrää.
Toinen haittapuoli on, että kaikki uusi data, jota käytetään ennustamiseen, on käsiteltävä samalla muunnosjärjestyksellä, mikä vaatii koko prosessin toistamista.
Scikit-learnin Pipeline
-luokka yksinkertaistaa tätä yhdistämällä kaikki muunnokset yhdeksi työnkuluksi, mikä helpottaa esikäsittelyn johdonmukaista soveltamista sekä koulutusdataan että uusiin havaintoihin.
Pipeline
toimii säiliönä muuntimien ja lopulta estimaattorin sarjalle. Kun kutsut .fit_transform()
-metodia Pipeline
-oliolle, se soveltaa kunkin muuntimen .fit_transform()
-metodia dataan järjestyksessä.
# Create a pipeline with three steps: imputation, one-hot encoding, and scaling
pipeline = Pipeline([
('imputer', SimpleImputer(strategy='most_frequent')), # Step 1: Impute missing values
('encoder', OneHotEncoder()), # Step 2: Convert categorical data
('scaler', StandardScaler()) # Step 3: Scale the data
])
# Fit and transform the data using the pipeline
X_transformed = pipeline.fit_transform(X)
Tämä virtaviivainen lähestymistapa tarkoittaa, että sinun tarvitsee kutsua .fit_transform()
vain kerran koulutusdatalla ja käyttää sen jälkeen .transform()
-metodia uusien havaintojen käsittelyyn.
Kiitos palautteestasi!