Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Haaste: Kaiken Yhdistäminen | Mallintaminen
Koneoppimisen Perusteet Scikit-learnilla

bookHaaste: Kaiken Yhdistäminen

Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.

Tehtävä

Swipe to start coding

Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.

  1. Koodaa kohdemuuttuja y käyttäen LabelEncoder-luokkaa.
  2. Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen train_test_split()-funktiota, jossa test_size=0.33.
  3. Luo ColumnTransformer nimeltä ct, joka käyttää OneHotEncoder-koodausta sarakkeisiin 'island' ja 'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough').
  4. Määrittele parametriverkko param_grid, joka sisältää seuraavat arvot n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], sekä 'weights' ('uniform', 'distance') ja 'p' (1, 2).
  5. Luo GridSearchCV-olio käyttäen KNeighborsClassifier()-mallia ja param_grid-parametriverkkoa.
  6. Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
  • ColumnTransformer (ct);
  • SimpleImputer, jonka strategia on 'most_frequent';
  • StandardScaler piirteiden skaalausta varten;
    • GridSearchCV-olio viimeisenä vaiheena.
  1. Kouluta putki opetusdatalla (X_train, y_train) käyttäen .fit()-metodia.
  2. Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen .score(X_test, y_test).
  3. Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen label_enc.inverse_transform().
  4. Tulosta GridSearchCV:n löytämä paras estimointimalli käyttämällä .best_estimator_-attribuuttia.

Ratkaisu

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 10
single

single

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the steps involved in the full workflow shown here?

What is the purpose of each tool or method depicted in the images?

Can you provide a summary of how these components work together in a machine learning project?

close

Awesome!

Completion rate improved to 3.13

bookHaaste: Kaiken Yhdistäminen

Pyyhkäise näyttääksesi valikon

Tässä haasteessa sovelletaan koko kurssilla opittua työnkulkua — aina datan esikäsittelystä mallin koulutukseen ja arviointiin asti.

Tehtävä

Swipe to start coding

Työskentelet pingviinien tietoaineiston parissa. Tavoitteesi on rakentaa täydellinen koneoppimisen putki, joka luokittelee pingviinilajit käyttäen K-Nearest Neighbors (KNN) -mallia. Putken tulee käsitellä kategoristen muuttujien koodaus, puuttuvat arvot, piirteiden skaalaus sekä parametrien viritys.

  1. Koodaa kohdemuuttuja y käyttäen LabelEncoder-luokkaa.
  2. Jaa tietoaineisto opetus- ja testijoukkoihin käyttäen train_test_split()-funktiota, jossa test_size=0.33.
  3. Luo ColumnTransformer nimeltä ct, joka käyttää OneHotEncoder-koodausta sarakkeisiin 'island' ja 'sex', jättäen muut sarakkeet muuttumattomiksi (remainder='passthrough').
  4. Määrittele parametriverkko param_grid, joka sisältää seuraavat arvot n_neighbors: [1, 3, 5, 7, 9, 12, 15, 20, 25], sekä 'weights' ('uniform', 'distance') ja 'p' (1, 2).
  5. Luo GridSearchCV-olio käyttäen KNeighborsClassifier()-mallia ja param_grid-parametriverkkoa.
  6. Rakenna putki, joka sisältää seuraavat vaiheet järjestyksessä:
  • ColumnTransformer (ct);
  • SimpleImputer, jonka strategia on 'most_frequent';
  • StandardScaler piirteiden skaalausta varten;
    • GridSearchCV-olio viimeisenä vaiheena.
  1. Kouluta putki opetusdatalla (X_train, y_train) käyttäen .fit()-metodia.
  2. Arvioi mallin suorituskyky tulostamalla testituloksen käyttäen .score(X_test, y_test).
  3. Luo ennusteet testidatalle ja tulosta ensimmäiset 5 dekoodattua luokan nimeä käyttäen label_enc.inverse_transform().
  4. Tulosta GridSearchCV:n löytämä paras estimointimalli käyttämällä .best_estimator_-attribuuttia.

Ratkaisu

Switch to desktopVaihda työpöytään todellista harjoitusta vartenJatka siitä, missä olet käyttämällä jotakin alla olevista vaihtoehdoista
Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 10
single

single

some-alt