Summary  
This chapter covers techniques for handling imbalanced datasets in machine learning, including class distribution analysis, sampling methods (undersampling, oversampling), stratified train–test splitting, and evaluation metrics (precision, recall, F1, ROC-AUC, confusion matrix) tailored for skewed class distributions.

General domain of usage  
Fraud detection

In this video, you will explore the concept of imbalanced data in large datasets. You will learn how imbalanced data occurs when one class significantly outweighs another, such as in fraud detection where fraudulent cases are much rarer than legitimate ones. The video explains why handling imbalanced data is essential—for example, how models trained on imbalanced data can become biased, produce misleading accuracy metrics, and miss important patterns in the minority class. You will see the real-world impact of not addressing imbalance, such as failing to detect rare diseases or fraudulent transactions. The video then guides you through best practices for working with imbalanced data: analyzing class distribution, applying sampling techniques, splitting data before sampling, using stratified sampling, and choosing the right evaluation metrics like precision, recall, F1-score, and ROC-AUC. You will also learn about tools like confusion matrices, ensemble methods, class weighting, and the importance of cross-validation. By the end, you will understand how to make your models fair, accurate, and robust—even when your data is highly imbalanced.

## Epätasapainoisen datan ymmärtäminen suurissa aineistoissa

Epätasapainoinen data tarkoittaa tilannetta, jossa luokkien tai kategorioiden jakauma aineistossa on epätasainen. Esimerkiksi petosten tunnistamiseen tarkoitetussa aineistossa vain 1 % tapahtumista voi olla petollisia, kun taas loput 99 % ovat laillisia. Tämä aiheuttaa **luokkien epätasapainon**, jossa yksi luokka (enemmistö) on huomattavasti suurempi kuin toinen (vähemmistö).

### Miksi epätasapainoisen datan käsittely on tärkeää

- **Vääristynyt mallin suorituskyky**: Koneoppimismallit, jotka on koulutettu epätasapainoisella datalla, suosivat usein enemmistöluokkaa ja jättävät vähemmistöluokan huomiotta;
- **Harhaanjohtava tarkkuus**: Korkea kokonais­tarkkuus voi olla harhaanjohtavaa, jos malli ennustaa aina enemmistöluokan;
- **Heikentynyt herkkyys**: Vähemmistöluokan tärkeitä piirteitä voi jäädä huomaamatta, mikä johtaa harvinaisten mutta kriittisten tapahtumien, kuten tautiepidemioiden tai petollisten tapahtumien, huonoon tunnistamiseen;
- **Vääristynyt data-analyysi**: Tilastolliset yhteenvedot ja visualisoinnit voivat painottua enemmistöluokkaan, jolloin vähemmistöluokan merkitykselliset havainnot jäävät piiloon.

### Vaikutus data-analyysiin ja koneoppimiseen

Epätasapainoisen datan huomiotta jättäminen voi johtaa epäluotettaviin ja epäluotettaviin malleihin, erityisesti sovelluksissa, joissa vähemmistöluokka on ensisijaisen tärkeä. Esimerkiksi lääketieteellisessä diagnostiikassa harvinaisten sairauksien tunnistamatta jättäminen voi johtaa vakaviin seurauksiin. Epätasapainoisen datan asianmukainen käsittely varmistaa, että analyysit ja mallit ovat oikeudenmukaisia, tarkkoja ja hyödyllisiä todellisessa päätöksenteossa.

## Parhaat käytännöt epätasapainoisen datan käsittelyyn

Kun työskentelet suurten ja epätasapainoisten aineistojen kanssa, noudata näitä parhaita käytäntöjä mallin suorituskyvyn parantamiseksi ja luotettavien tulosten varmistamiseksi:

- Analysoi luokkajakauma ennen lähestymistavan valintaa;
- Käytä **otosmenetelmiä** kuten `RandomOverSampler`, `RandomUnderSampler` tai **synteettisen datan generointia** (esim. SMOTE) epätasapainon korjaamiseksi;
- Jaa data koulutus- ja testijoukkoihin **ennen** otosmenetelmien käyttöä, jotta vältät datavuodon;
- Suosi **stratifioitua otantaa** luokkien osuuksien säilyttämiseksi sekä koulutus- että testijoukoissa;
- Arvioi malleja epätasapainoon soveltuvilla mittareilla, kuten **precision**, **recall**, **F1-score** ja **ROC-AUC**, äläkä luota pelkkään tarkkuuteen;
- Käytä **sekaannusmatriiseja** mallin suorituskyvyn visualisoimiseen kaikissa luokissa;
- Harkitse **yhdistelmämallien** kuten `RandomForestClassifier` tai **luokkien painotuksen** käyttöä epätasapainon korjaamiseksi;
- Seuraa ja validoi tuloksia jatkuvasti ristiinvalidoinnilla mallin luotettavuuden varmistamiseksi.

Noudattamalla näitä ohjeita voit rakentaa malleja, jotka ovat oikeudenmukaisia, tarkkoja ja kestäviä, vaikka kohtaisit merkittäviä luokkien epätasapainoja suurissa aineistoissa.

Mitä tarkoitetaan epätasapainoisella datalla suurissa aineistoissa?

Käytännönläheinen, hands-on-kurssi aloitteleville data-analyytikoille, jotka ovat valmiita kohtaamaan todellisen maailman suurten datamäärien haasteet. Opettele käsittelemään, otantamaan ja analysoimaan massiivisia tietoaineistoja tehokkaasti Pythonilla ja keskeisillä kirjastoilla. Jokainen osio sisältää mukaansatempaavia videoesityksiä ja interaktiivisia haasteita asiantuntemuksen kehittämiseksi.

Opi perustavanlaatuisia strategioita liian suurten tietoaineistojen käsittelyyn, jotka eivät mahdu muistiin, mukaan lukien paloittelu- ja suoratoistotekniikat.

Tutustu menetelmiin suurten tietoaineistojen tasapainottamiseksi ja näytteistämiseksi, mukaan lukien ylänäytteistäminen ja alinäytteistäminen.

Opi käyttämään polars-kirjastoa nopeaan ja muistitehokkaaseen datankäsittelyyn.

Epätasapainoinen Data

Epätasapainoisen datan ymmärtäminen suurissa aineistoissa

Miksi epätasapainoisen datan käsittely on tärkeää

Vaikutus data-analyysiin ja koneoppimiseen

Parhaat käytännöt epätasapainoisen datan käsittelyyn