Haaste: Kaiken Yhdistäminen
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Sinulle annetaan pingviinien tietoaineisto. Tavoitteena on rakentaa koneoppimisputki, joka luokittelee pingviinilajit käyttäen K-lähimmän naapurin (KNN) mallia, käsitellen asianmukaisesti koodauksen, puuttuvat arvot ja parametrien optimoinnin.
- Koodaa kohdemuuttuja käyttäen
LabelEncoder
-luokkaa. - Jaa tietoaineisto koulutus- ja testijoukkoihin käyttäen
test_size=0.33
. - Luo ColumnTransformer (
ct
), joka koodaa vain'island'
- ja'sex'
-sarakkeet käyttäen sopivaa kooderia nominaalidatalle (OneHotEncoder
) ja jättää muut sarakkeet koskemattomiksi. - Määritä parametriverkko (
param_grid
), joka sisältää seuraavat arvotn_neighbors
-parametrille:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Luo
GridSearchCV
-olio, jossaKNeighborsClassifier
toimii perusmallina japaram_grid
sen parametreina. - Rakenna putki, joka koostuu:
ColumnTransformer
ista (ct
);SimpleImputer
ista (strategia ='most_frequent'
);StandardScaler
ista;- ja
GridSearchCV
:stä viimeisenä vaiheena.
- Kouluta putki käyttäen koulutusdataa (
X_train
,y_train
). - Arvioi mallia testidatalla tulostamalla sen
.score(X_test, y_test)
. - Ennusta testijoukolla ja tulosta ensimmäiset 5 dekoodattua ennustetta käyttäen
label_enc.inverse_transform()
. - Lopuksi tulosta paras estimointimalli, jonka
GridSearchCV
löysi.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme
Can you explain the steps involved in the full workflow shown here?
What is the purpose of each tool or method depicted in the images?
Can you provide a summary of how these components work together in a machine learning project?
Awesome!
Completion rate improved to 3.13
Haaste: Kaiken Yhdistäminen
Pyyhkäise näyttääksesi valikon
Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.
Swipe to start coding
Sinulle annetaan pingviinien tietoaineisto. Tavoitteena on rakentaa koneoppimisputki, joka luokittelee pingviinilajit käyttäen K-lähimmän naapurin (KNN) mallia, käsitellen asianmukaisesti koodauksen, puuttuvat arvot ja parametrien optimoinnin.
- Koodaa kohdemuuttuja käyttäen
LabelEncoder
-luokkaa. - Jaa tietoaineisto koulutus- ja testijoukkoihin käyttäen
test_size=0.33
. - Luo ColumnTransformer (
ct
), joka koodaa vain'island'
- ja'sex'
-sarakkeet käyttäen sopivaa kooderia nominaalidatalle (OneHotEncoder
) ja jättää muut sarakkeet koskemattomiksi. - Määritä parametriverkko (
param_grid
), joka sisältää seuraavat arvotn_neighbors
-parametrille:[1, 3, 5, 7, 9, 12, 15, 20, 25]
. - Luo
GridSearchCV
-olio, jossaKNeighborsClassifier
toimii perusmallina japaram_grid
sen parametreina. - Rakenna putki, joka koostuu:
ColumnTransformer
ista (ct
);SimpleImputer
ista (strategia ='most_frequent'
);StandardScaler
ista;- ja
GridSearchCV
:stä viimeisenä vaiheena.
- Kouluta putki käyttäen koulutusdataa (
X_train
,y_train
). - Arvioi mallia testidatalla tulostamalla sen
.score(X_test, y_test)
. - Ennusta testijoukolla ja tulosta ensimmäiset 5 dekoodattua ennustetta käyttäen
label_enc.inverse_transform()
. - Lopuksi tulosta paras estimointimalli, jonka
GridSearchCV
löysi.
Ratkaisu
Kiitos palautteestasi!
single