Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Vektorilamallien Tyypit | Perustekstin Mallit
Johdatus NLP:hen Pythonilla

bookVektorilamallien Tyypit

Vektoriavaruusmallit voidaan luokitella tekstin esitystavan perusteella, yksinkertaisista frekvenssipohjaisista menetelmistä kehittyneempiin, kontekstia huomioiviin upotuksiin. Jokaisella lähestymistavalla on omat etunsa ja ne soveltuvat erilaisiin NLP-tehtäviin.

Bag of Words

Bag of words (BoW) on vektoriavaruusmalli, jossa dokumentit esitetään vektoreina, joiden jokainen ulottuvuus vastaa yksittäistä sanaa. Malli voi olla binäärinen (osoittaa sanan esiintymisen) tai frekvenssipohjainen (osoittaa sanan esiintymiskertojen määrän).

Tässä on esimerkki frekvenssipohjaisesta BoW-mallista:

Kuten huomaat, jokainen dokumentti esitetään vektorina, jossa jokainen ulottuvuus vastaa tietyn sanan frekvenssiä kyseisessä dokumentissa. Binäärisessä bag of words -mallissa jokainen vektori sisältäisi vain 0 tai 1 kullekin sanalle, mikä ilmaisee sanan puuttumisen tai esiintymisen.

Note
Huomio

Tekstin esikäsittely on välttämätön vaihe ennen BoW-mallin tai vastaavien mallien soveltamista.

TF-IDF

TF-IDF (term frequency-inverse document frequency) -malli laajentaa bag of words (BoW) -lähestymistapaa säätämällä sanan esiintymistiheyttä sen perusteella, kuinka usein sana esiintyy kaikissa dokumenteissa. Malli korostaa dokumentille ainutlaatuisia sanoja, tarjoten näin tarkempaa tietoa dokumentin sisällöstä.

Tämä saavutetaan yhdistämällä term frequency (kuinka monta kertaa sana esiintyy dokumentissa) ja inverse document frequency (mittari siitä, kuinka yleinen tai harvinainen sana on koko aineistossa).

Alla on tulos TF-IDF:n soveltamisesta edellisen esimerkin dokumentteihin:

TF-IDF:n rikastamat vektorit osoittavat suurempaa vaihtelua ja tarjoavat syvällisempää tietoa dokumentin sisällöstä.

Sanaupotukset ja dokumenttiupotukset

Sanaupotukset kuvaavat yksittäiset sanat tiheinä vektoreina matalassa, jatkuvassa avaruudessa, jolloin semanttiset samankaltaisuudet voidaan havaita, vaikka ne eivät olisi suoraan tulkittavissa.

Dokumenttiupotukset puolestaan muodostavat tiheitä vektoreita, jotka edustavat kokonaisia dokumentteja, ja näin kuvaavat niiden yleistä semanttista merkitystä.

Note
Huomio

Upotusten ulottuvuus (koko) valitaan yleensä projektin vaatimusten ja käytettävissä olevien laskentaresurssien perusteella. Oikean koon valinta on tärkeää, jotta saavutetaan tasapaino rikkaan semanttisen informaation ja mallin tehokkuuden välillä.

Tässä on esimerkki siitä, miltä sanaupotukset sanoille "cat", "kitten", "dog" ja "house" voisivat näyttää:

Vaikka tämän taulukon numeeriset arvot ovat satunnaisia, ne havainnollistavat, kuinka upotukset voivat kuvata merkityksellisiä suhteita sanojen välillä.

Todellisissa sovelluksissa tällaiset upotukset opitaan kouluttamalla mallia suurella tekstikorpuksella, jolloin malli pystyy löytämään hienovaraisia kuvioita ja semanttisia suhteita luonnollisesta kielestä.

Note
Opiskele lisää

Tiheiden esitysten jatkokehitys, kontekstuaaliset upotukset (jotka tuotetaan malleilla kuten BERT ja GPT), ottaa huomioon sanan esiintymiskontekstin vektorin muodostamisessa. Tämä tarkoittaa, että samalla sanalla voi olla eri upotukset riippuen sen käytöstä eri lauseissa, mikä mahdollistaa kielen vivahteikkaan ymmärtämisen.

question-icon

Järjestä mallit monimutkaisuuden mukaan yksinkertaisimmasta monimutkaisimpaan.




Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Suggested prompts:

Can you explain the main differences between BoW, TF-IDF, and embeddings?

What are some practical applications for each of these vector space models?

How do I choose which vector space model to use for my NLP task?

bookVektorilamallien Tyypit

Pyyhkäise näyttääksesi valikon

Vektoriavaruusmallit voidaan luokitella tekstin esitystavan perusteella, yksinkertaisista frekvenssipohjaisista menetelmistä kehittyneempiin, kontekstia huomioiviin upotuksiin. Jokaisella lähestymistavalla on omat etunsa ja ne soveltuvat erilaisiin NLP-tehtäviin.

Bag of Words

Bag of words (BoW) on vektoriavaruusmalli, jossa dokumentit esitetään vektoreina, joiden jokainen ulottuvuus vastaa yksittäistä sanaa. Malli voi olla binäärinen (osoittaa sanan esiintymisen) tai frekvenssipohjainen (osoittaa sanan esiintymiskertojen määrän).

Tässä on esimerkki frekvenssipohjaisesta BoW-mallista:

Kuten huomaat, jokainen dokumentti esitetään vektorina, jossa jokainen ulottuvuus vastaa tietyn sanan frekvenssiä kyseisessä dokumentissa. Binäärisessä bag of words -mallissa jokainen vektori sisältäisi vain 0 tai 1 kullekin sanalle, mikä ilmaisee sanan puuttumisen tai esiintymisen.

Note
Huomio

Tekstin esikäsittely on välttämätön vaihe ennen BoW-mallin tai vastaavien mallien soveltamista.

TF-IDF

TF-IDF (term frequency-inverse document frequency) -malli laajentaa bag of words (BoW) -lähestymistapaa säätämällä sanan esiintymistiheyttä sen perusteella, kuinka usein sana esiintyy kaikissa dokumenteissa. Malli korostaa dokumentille ainutlaatuisia sanoja, tarjoten näin tarkempaa tietoa dokumentin sisällöstä.

Tämä saavutetaan yhdistämällä term frequency (kuinka monta kertaa sana esiintyy dokumentissa) ja inverse document frequency (mittari siitä, kuinka yleinen tai harvinainen sana on koko aineistossa).

Alla on tulos TF-IDF:n soveltamisesta edellisen esimerkin dokumentteihin:

TF-IDF:n rikastamat vektorit osoittavat suurempaa vaihtelua ja tarjoavat syvällisempää tietoa dokumentin sisällöstä.

Sanaupotukset ja dokumenttiupotukset

Sanaupotukset kuvaavat yksittäiset sanat tiheinä vektoreina matalassa, jatkuvassa avaruudessa, jolloin semanttiset samankaltaisuudet voidaan havaita, vaikka ne eivät olisi suoraan tulkittavissa.

Dokumenttiupotukset puolestaan muodostavat tiheitä vektoreita, jotka edustavat kokonaisia dokumentteja, ja näin kuvaavat niiden yleistä semanttista merkitystä.

Note
Huomio

Upotusten ulottuvuus (koko) valitaan yleensä projektin vaatimusten ja käytettävissä olevien laskentaresurssien perusteella. Oikean koon valinta on tärkeää, jotta saavutetaan tasapaino rikkaan semanttisen informaation ja mallin tehokkuuden välillä.

Tässä on esimerkki siitä, miltä sanaupotukset sanoille "cat", "kitten", "dog" ja "house" voisivat näyttää:

Vaikka tämän taulukon numeeriset arvot ovat satunnaisia, ne havainnollistavat, kuinka upotukset voivat kuvata merkityksellisiä suhteita sanojen välillä.

Todellisissa sovelluksissa tällaiset upotukset opitaan kouluttamalla mallia suurella tekstikorpuksella, jolloin malli pystyy löytämään hienovaraisia kuvioita ja semanttisia suhteita luonnollisesta kielestä.

Note
Opiskele lisää

Tiheiden esitysten jatkokehitys, kontekstuaaliset upotukset (jotka tuotetaan malleilla kuten BERT ja GPT), ottaa huomioon sanan esiintymiskontekstin vektorin muodostamisessa. Tämä tarkoittaa, että samalla sanalla voi olla eri upotukset riippuen sen käytöstä eri lauseissa, mikä mahdollistaa kielen vivahteikkaan ymmärtämisen.

question-icon

Järjestä mallit monimutkaisuuden mukaan yksinkertaisimmasta monimutkaisimpaan.




Click or drag`n`drop items and fill in the blanks

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 3. Luku 2
some-alt