Summary  
This chapter covers vector space modeling techniques to convert text into numerical vectors, including frequency-based bag-of-words, TF-IDF adjustments, and dense word or document embeddings that capture semantic relationships.

General domain of usage  
Natural language processing

Vektoriavaruusmallit voidaan luokitella **tekstin esitystavan** perusteella, yksinkertaisista frekvenssipohjaisista menetelmistä kehittyneempiin, kontekstia huomioiviin upotuksiin. Jokaisella lähestymistavalla on omat etunsa ja ne soveltuvat erilaisiin NLP-tehtäviin.

## Bag of Words

**Bag of words (BoW)** on vektoriavaruusmalli, jossa dokumentit esitetään vektoreina, joiden jokainen ulottuvuus vastaa yksittäistä sanaa. Malli voi olla **binäärinen** (osoittaa sanan esiintymisen) tai **frekvenssipohjainen** (osoittaa sanan esiintymiskertojen määrän).

Tässä on esimerkki frekvenssipohjaisesta BoW-mallista:

Kuten huomaat, jokainen dokumentti esitetään vektorina, jossa jokainen ulottuvuus vastaa tietyn sanan **frekvenssiä** kyseisessä dokumentissa. Binäärisessä bag of words -mallissa jokainen vektori sisältäisi vain **0** tai **1** kullekin sanalle, mikä ilmaisee sanan **puuttumisen** tai **esiintymisen**.

Tekstin esikäsittely on välttämätön vaihe ennen **BoW**-mallin tai vastaavien mallien soveltamista.

Huomio

## TF-IDF

**TF-IDF (term frequency-inverse document frequency)** -malli laajentaa bag of words (BoW) -lähestymistapaa säätämällä sanan esiintymistiheyttä sen perusteella, kuinka usein sana esiintyy kaikissa dokumenteissa. Malli korostaa dokumentille ainutlaatuisia sanoja, tarjoten näin tarkempaa tietoa dokumentin sisällöstä.

Tämä saavutetaan yhdistämällä **term frequency** (kuinka monta kertaa sana esiintyy dokumentissa) ja **inverse document frequency** (mittari siitä, kuinka yleinen tai harvinainen sana on koko aineistossa).

Alla on tulos TF-IDF:n soveltamisesta edellisen esimerkin dokumentteihin:

TF-IDF:n rikastamat vektorit osoittavat suurempaa vaihtelua ja tarjoavat syvällisempää tietoa dokumentin sisällöstä.

## Sanaupotukset ja dokumenttiupotukset

**Sanaupotukset** kuvaavat **yksittäiset sanat** tiheinä vektoreina matalassa, jatkuvassa avaruudessa, jolloin semanttiset samankaltaisuudet voidaan havaita, vaikka ne eivät olisi suoraan tulkittavissa.

**Dokumenttiupotukset** puolestaan muodostavat tiheitä vektoreita, jotka edustavat **kokonaisia dokumentteja**, ja näin kuvaavat niiden yleistä semanttista merkitystä.



Upotusten **ulottuvuus (koko)** valitaan yleensä projektin vaatimusten ja käytettävissä olevien laskentaresurssien perusteella. Oikean koon valinta on tärkeää, jotta saavutetaan tasapaino rikkaan **semanttisen informaation** ja **mallin tehokkuuden** välillä.

Tässä on esimerkki siitä, miltä sanaupotukset sanoille "cat", "kitten", "dog" ja "house" voisivat näyttää:

Vaikka tämän taulukon numeeriset arvot ovat satunnaisia, ne havainnollistavat, kuinka upotukset voivat kuvata merkityksellisiä suhteita sanojen välillä.

Todellisissa sovelluksissa tällaiset upotukset opitaan **kouluttamalla mallia suurella tekstikorpuksella**, jolloin malli pystyy löytämään hienovaraisia kuvioita ja semanttisia suhteita luonnollisesta kielestä.

Tiheiden esitysten jatkokehitys, **kontekstuaaliset upotukset** (jotka tuotetaan malleilla kuten BERT ja GPT), ottaa huomioon sanan esiintymiskontekstin vektorin muodostamisessa. Tämä tarkoittaa, että samalla sanalla voi olla **eri upotukset** riippuen sen käytöstä eri lauseissa, mikä mahdollistaa kielen vivahteikkaan ymmärtämisen.

Opiskele lisää

Tutustu luonnollisen kielen käsittelyn (NLP) perusteisiin oppimalla keskeiset tekstin esikäsittelytekniikat ja menetelmät tekstiaineiston esittämiseen. Saat käytännön kokemusta työkaluista, joilla puhdistetaan, analysoidaan ja tulkitaan tekstimuotoista tietoa. Kehitä taidot, joilla muutat raakakielen jäsennellyiksi havainnoiksi ja luot vahvan pohjan tekoälyn ja koneoppimisen edistyneille sovelluksille.

Perehdy tekstin esikäsittelyn perusteisiin raakatekstin valmistelussa analyysia varten. Opiskele tekstin tokenisointia, stop-sanojen suodatusta sekä tokenisoinnin mukauttamista säännöllisten lausekkeiden avulla.

Opi, miten sanoja voidaan palauttaa perusmuotoonsa stemmauksen ja lemmatisaation avulla. Hallitse sanaluokkien tunnistus tekstin kieliopillisen kontekstin rikastamiseksi ja sovella sanaluokkatietoista lemmatisaatiota.

Opi, miten teksti voidaan esittää numeroina vektoriavaruusmallien avulla. Saat käytännön kokemusta toteuttamalla ja mukauttamalla kahta suosittua vektoriavaruusmallia: sanapussimalli ja TF-IDF.

Hanki vankka ymmärrys sanaesityksistä ja siitä, miten ne tallentavat semanttista merkitystä. Tutustu Word2Vecin CBoW- ja Skip-gram-arkkitehtuureihin ja toteuta ne itse.

Vektorilamallien Tyypit

Bag of Words

TF-IDF

Sanaupotukset ja dokumenttiupotukset