single
Challenge: Alinäytteistyksen Soveltaminen
Pyyhkäise näyttääksesi valikon
Monissa todellisissa tietoaineistoissa esiintyy usein luokkien epätasapainoa – tilanne, jossa yksi luokka (enemmistö) on huomattavasti suurempi kuin toinen (vähemmistö). Tämä epätasapaino voi johtaa mallien vinoutumiseen ennustamaan enemmistöluokkaa, mikä heikentää vähemmistöluokan ennustetarkkuutta. Yksi yleinen ratkaisu on alipoiminta (undersampling), jossa enemmistöluokan havaintojen määrää pienennetään satunnaisesti vastaamaan vähemmistöluokan havaintojen määrää. Tässä haasteessa pääset harjoittelemaan tätä menetelmää käytännössä. Saat DataFrame-taulukon, jossa on kategorinen kohdesarake ja kaksi luokkaa. Tavoitteena on palauttaa uusi DataFrame, jossa molempia luokkia on yhtä paljon, mikä saavutetaan satunnaisesti alipoimimalla enemmistöluokkaa.
Pyyhkäise aloittaaksesi koodauksen
Annetun DataFrame-taulukon, jossa on kategorinen kohdesarake ja kaksi luokkaa, perusteella palauta uusi DataFrame, jossa molemmilla luokilla on yhtä monta havaintoa satunnaisesti alinäytteistämällä enemmistöluokkaa.
- Määritä, mikä luokka on vähemmistö ja mikä enemmistö laskemalla havaintojen määrä kummassakin luokassa.
- Valitse satunnaisesti havaintoja enemmistöluokasta niin, että sen määrä vastaa vähemmistöluokan määrää.
- Yhdistä satunnaisesti valitut enemmistöluokan havainnot kaikkiin vähemmistöluokan havaintoihin.
- Sekoita muodostunut DataFrame ja nollaa indeksi.
Ratkaisu
Kiitos palautteestasi!
single
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme