Haaste: Kaiken Yhdistäminen
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.
- Koodaa kohdemuuttuja
ykäyttäenLabelEncoder-luokkaa. - Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen
train_test_split()-funktiota, jossatest_size=0.33. - Luo
ColumnTransformernimeltäct, joka käyttääOneHotEncoder-koodausta sarakkeisiin'island'ja'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough'). - Määrittele parametriverkko
param_grid, joka sisältää seuraavat arvotn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sekä'weights'('uniform','distance') ja'p'(1,2). - Luo
GridSearchCV-olio käyttäenKNeighborsClassifier()-mallia japaram_grid-parametriverkkoa. - Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
ColumnTransformer(ct);SimpleImputer, jonka strategia on'most_frequent';StandardScalerpiirteiden skaalausta varten;GridSearchCV-olio viimeisenä vaiheena.
- Kouluta putki opetusdatalla (
X_train,y_train) käyttäen.fit()-metodia. - Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen
.score(X_test, y_test). - Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen
label_enc.inverse_transform(). - Tulosta
GridSearchCV:n löytämä paras estimointimalli käyttämällä.best_estimator_-attribuuttia.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Awesome!
Completion rate improved to 3.13
Haaste: Kaiken Yhdistäminen
Pyyhkäise näyttääksesi valikon
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.
- Koodaa kohdemuuttuja
ykäyttäenLabelEncoder-luokkaa. - Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen
train_test_split()-funktiota, jossatest_size=0.33. - Luo
ColumnTransformernimeltäct, joka käyttääOneHotEncoder-koodausta sarakkeisiin'island'ja'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough'). - Määrittele parametriverkko
param_grid, joka sisältää seuraavat arvotn_neighbors:[1, 3, 5, 7, 9, 12, 15, 20, 25], sekä'weights'('uniform','distance') ja'p'(1,2). - Luo
GridSearchCV-olio käyttäenKNeighborsClassifier()-mallia japaram_grid-parametriverkkoa. - Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
ColumnTransformer(ct);SimpleImputer, jonka strategia on'most_frequent';StandardScalerpiirteiden skaalausta varten;GridSearchCV-olio viimeisenä vaiheena.
- Kouluta putki opetusdatalla (
X_train,y_train) käyttäen.fit()-metodia. - Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen
.score(X_test, y_test). - Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen
label_enc.inverse_transform(). - Tulosta
GridSearchCV:n löytämä paras estimointimalli käyttämällä.best_estimator_-attribuuttia.
Ratkaisu
Kiitos palautteestasi!
single