Oppiskele Cbow- ja Skip-gram-mallit

Pyyhkäise näyttääksesi valikon

Sekä CBoW- että Skip-gram-arkkitehtuurit oppivat sanaupotuksia neuroverkkorakenteen avulla, joka koostuu seuraavista kerroksista:

Syötekerros;
Yksi piilokerros;
Ulostulokerros.

Painomatriisi syöte- ja piilokerrosten välillä, merkittynä $W^1$ tai $E$ , toimii upotusmatriisina. Jokainen tämän matriisin rivi edustaa upotusvektoria vastaavalle sanalle, ja $i$ :s rivi vastaa sanastossa olevaa $i$ :ttä sanaa.

Tämä matriisi sisältää $V$ (sanaston koko) upotusta, joista jokaisen koko on $N$ , määrittelemämme dimensio. Kun tämän matriisin transpoosi ( $N \times V$ matriisi) kerrotaan one-hot-koodatulla vektorilla ( $V \times 1$ vektori), saadaan tietyn sanan upotus, joka on $N \times 1$ vektori.

Toinen painomatriisi, joka sijaitsee piilo- ja ulostulokerrosten välillä, on kooltaan $N \times V$ . Kun tämän matriisin transpoosi ( $V \times N$ matriisi) kerrotaan piilokerroksen $N \times 1$ vektorilla, tuloksena on $V \times 1$ vektori.

CBoW

Tarkastellaan nyt esimerkkiä CBoW-mallin käytöstä:

Ensiksi upotematriisin transpoosi kerrotaan kontekstisanojen one-hot-vektoreilla, jolloin saadaan niiden upotteet. Nämä upotteet summataan tai keskiarvoistetaan toteutuksesta riippuen, jolloin muodostuu yksi vektori. Tämä vektori kerrotaan $W^2$ -matriisilla, jolloin saadaan $V \times 1$ -vektori.

Lopuksi tämä vektori syötetään softmax-aktivointifunktion läpi, jolloin siitä muodostuu todennäköisyysjakauma, jossa jokainen alkio kuvaa sanaston sanan todennäköisyyttä olla kohdesana.

Tämän jälkeen lasketaan häviöfunktio ja molempia painomatriiseja päivitetään häviön minimoimiseksi. Ihannetilanteessa kohdesanan todennäköisyyden tulisi olla mahdollisimman lähellä 1 ja muiden sanojen todennäköisyyksien lähellä nollaa. Tämä prosessi toistetaan jokaiselle kohdesanan ja sen kontekstisanojen yhdistelmälle.

Kun kaikki yhdistelmät on käsitelty, yksi epookki on valmis. Tyypillisesti neuroverkkoa koulutetaan useiden epookkien ajan, jotta oppiminen olisi tarkkaa. Lopuksi tuloksena saadun upotematriisin rivejä voidaan käyttää sanan upotteina. Jokainen rivi vastaa tietyn sanaston sanan vektoriesitystä, joka kuvaa sanan semanttisia ominaisuuksia koulutetussa mallissa.

Skip-gram

Tarkastellaan nyt skip-gram-mallia:

Kuten huomaat, prosessi on pääosin samanlainen kuin CBoW-mallissa. Se alkaa kohdesanan upotteen hakemisella, jota käytetään piilotetussa kerroksessa. Tämän jälkeen tuotetaan $V \times 1$ -vektori ulostulokerroksessa. Tämä vektori saadaan kertomalla kohdesanan upote ulostulokerroksen painomatriisilla, minkä jälkeen softmax-aktivointifunktio muuntaa sen todennäköisyysvektoriksi.

Huomio

Vaikka tämä tuloksena saatu todennäköisyysvektori on sama kaikille kontekstisanoille, jotka liittyvät yhteen kohdesanaan yhden koulutusaskeleen aikana, jokaisen kontekstisanan tappio lasketaan yksittäin.

Jokaisen kontekstisanan tappio summataan, ja painomatriiseja päivitetään jokaisella iteraatiolla kokonaistappion minimoimiseksi. Kun määritelty määrä epookkeja on suoritettu, upotematriisia voidaan käyttää sanaupotteiden hakemiseen.

Lisätietoa

Käytännössä, erityisesti suurilla sanastoilla, softmax-funktio voi olla liian laskennallisesti raskas. Tämän vuoksi laskennan tehostamiseksi käytetään usein approksimaatioita, kuten negatiivista näytteenottoa.

1. Täydennä aukot

2. Mitä ensimmäinen painomatriisi $W^1$ neuroverkossa edustaa?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 27

Kysy tekoälyä

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 1. Luku 27

Cbow- ja Skip-gram-mallit

CBoW

Skip-gram

1. Täydennä aukot

2. Mitä ensimmäinen painomatriisi W1W^1W1 neuroverkossa edustaa?

2. Mitä ensimmäinen painomatriisi $W^1$ neuroverkossa edustaa?