Haaste: Kaiken Yhdistäminen
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.
- Koodaa kohdemuuttuja
ykäyttäenLabelEncoder-luokkaa. - Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen
train_test_split()-funktiota, jossatest_size=0.33. - Luo
ColumnTransformernimeltäct, joka käyttääOneHotEncoder-koodausta sarakkeisiin'island'ja'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough'). - Määrittele parametriverkko
param_grid, joka sisältää seuraavat arvotn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sekä'weights'('uniform','distance') ja'p'(1,2). - Luo
GridSearchCV-olio käyttäenKNeighborsClassifier()-mallia japaram_grid-parametriverkkoa. - Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
ColumnTransformer(ct);SimpleImputer, jonka strategia on'most_frequent';StandardScalerpiirteiden skaalausta varten;GridSearchCV-olio viimeisenä vaiheena.
- Kouluta putki opetusdatalla (
X_train,y_train) käyttäen.fit()-metodia. - Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen
.score(X_test, y_test). - Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen
label_enc.inverse_transform(). - Tulosta
GridSearchCV:n löytämä paras estimointimalli käyttämällä.best_estimator_-attribuuttia.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Haaste: Kaiken Yhdistäminen
Pyyhkäise näyttääksesi valikon
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.
- Koodaa kohdemuuttuja
ykäyttäenLabelEncoder-luokkaa. - Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen
train_test_split()-funktiota, jossatest_size=0.33. - Luo
ColumnTransformernimeltäct, joka käyttääOneHotEncoder-koodausta sarakkeisiin'island'ja'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough'). - Määrittele parametriverkko
param_grid, joka sisältää seuraavat arvotn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sekä'weights'('uniform','distance') ja'p'(1,2). - Luo
GridSearchCV-olio käyttäenKNeighborsClassifier()-mallia japaram_grid-parametriverkkoa. - Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
ColumnTransformer(ct);SimpleImputer, jonka strategia on'most_frequent';StandardScalerpiirteiden skaalausta varten;GridSearchCV-olio viimeisenä vaiheena.
- Kouluta putki opetusdatalla (
X_train,y_train) käyttäen.fit()-metodia. - Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen
.score(X_test, y_test). - Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen
label_enc.inverse_transform(). - Tulosta
GridSearchCV:n löytämä paras estimointimalli käyttämällä.best_estimator_-attribuuttia.
Ratkaisu
Kiitos palautteestasi!
single