Summary  
This chapter demonstrates how to preprocess numeric features, apply the DBSCAN density-based clustering algorithm with hyperparameter tuning (eps and min_samples), and visualize resulting clusters and outliers on a real dataset.  

General domain of usage  
Customer segmentation in retail marketing

Käytössäsi on **mall customers** -aineisto, joka sisältää seuraavat sarakkeet:

Noudata myös seuraavia vaiheita ennen klusterointia:
     
1.  **Lataa data:** käytä `pandas`-kirjastoa CSV-tiedoston lataamiseen;
2.  **Valitse olennaiset ominaisuudet:** keskity sarakkeisiin `'Annual Income (k$)'` ja `'Spending Score (1-100)'`;
3.  **Datan skaalaus (tärkeää DBSCANille):** koska DBSCAN käyttää etäisyyslaskentaa, ominaisuudet on tärkeää skaalata samalle vaihteluvälille. Voit käyttää tähän tarkoitukseen `StandardScaler`-luokkaa.

## Tulosten tulkinta 

Tämä koodi muodostaa **5 klusteria**. On tärkeää analysoida muodostuneita klustereita, jotta voidaan saada tietoa **asiakassegmentoinnista**. Esimerkiksi klusterit voivat edustaa:

- Suurituloisia, paljon kuluttavia asiakkaita;     
- Suurituloisia, vähän kuluttavia asiakkaita;    
- Pienituloisia, paljon kuluttavia asiakkaita;     
- Pienituloisia, vähän kuluttavia asiakkaita; 
- Keskituloisia, keskimääräisesti kuluttavia asiakkaita.

Mikä seuraavista väittämistä kuvaa parhaiten DBSCAN-algoritmin keskeistä etua ostoskeskuksen asiakasdatan klusteroinnissa?

Tutustu piilevien rakenteiden tunnistamiseen ohjaamattoman oppimisen avulla. Hallitse keskeisimmät klusterointialgoritmit, kuten K-Means, hierarkkinen klusterointi, DBSCAN ja Gaussin seosmallit. Opettele arvioimaan klusteroinnin laatua WSS- ja Silhouette-mittareilla, käsittelemään erilaisia etäisyysmittareita sekä toteuttamaan kestäviä ratkaisuja aidoilla aineistoilla. Kehitä osaamista asiakassegmentoinnissa ja rakenteiden löytämisessä merkitsemättömästä datasta Scikit-learnin avulla.

Toteutus Oikealla Tietoaineistolla

Tulosten tulkinta

Yhteenveto