Summary  
This chapter covers lemmatization, the process of converting words to their dictionary form by leveraging context and part-of-speech information, and demonstrates how to use NLTK’s WordNetLemmatizer in code to achieve more accurate base forms.  

General domain of usage  
Natural language processing

**Lemmatisaatio** on tekstin normalisointitekniikka, jota käytetään NLP:ssä sanojen palauttamiseen sanakirjamuotoon, jota kutsutaan **lemmaksi**.

Määritelmä

Toisin kuin stemmaus, joka karkeasti katkaisee päätteet, lemmatisointi ottaa huomioon kontekstin ja muuntaa sanan **sanakirjamuotoon**. Esimerkiksi 'am', 'are' ja 'is' lemmatisoidaan kaikki muotoon 'be'. Tämä lähestymistapa voi merkittävästi pienentää **sanaston kokoa** (uniikkien sanojen määrä) suurissa tekstikorpuksissa, mikä lisää tehokkuutta mallien koulutuksessa.

Toisaalta, vaikka lemmatisointi on tarkempaa, se on myös **laskennallisesti raskaampaa** ja voi olla aikaa vievää suurten aineistojen kanssa. Lisäksi vielä paremman tarkkuuden saavuttamiseksi suositellaan morfologista analyysiä ja **osaluokkamerkintää** ennen lemmatisointia.

Älä huolehdi **osaluokitusmerkinnästä** vielä, sillä opit siitä seuraavaksi.

Huomio

## Lemmatisaatio NLTK:lla

WordNet Lemmatizer, jonka tarjoaa NLTK-kirjasto, hyödyntää **WordNet**-korpusta lemmatisaation suorittamiseen.

**WordNet** on semanttisesti rikas englanninkielinen leksikaalinen tietokanta, joka menee paljon yksinkertaista korpusta pidemmälle. Se ryhmittelee sanat synonyymijoukkoihin eli **synsetteihin**, joista jokainen kuvaa tiettyä käsitettä ja sisältää määritelmiä sekä esimerkkikäyttöjä. Lisäksi WordNet sisältää merkityksellisiä suhteita synsettien välillä — kuten **hyperonyymit** (yleisemmät, laajemmat termit) ja **hyponyymit** (tarkemmat, suppeammat termit) — tarjoten tehokkaan kehyksen sanojen merkitysten tutkimiseen ja erotteluun.


Lisätietoa

Kun käytät WordNet-lemmatisaattoria, se etsii kohdesanan **WordNet-tietokannasta** löytääkseen sanan sopivimman lemmamuodon.

Kuten aiemmin mainittiin, koska sanoilla voi olla eri merkityksiä eri konteksteissa (esim. "running" verbinä vs. "running" substantiivina), lemmatisaattori saattaa vaatia sinun määrittelevän **sanaluokan** (esim. verbi, substantiivi, adjektiivi). Tämä auttaa valitsemaan oikean lemmamuodon sanan roolin perusteella lauseessa.

from nltk.stem import WordNetLemmatizer
import nltk
# Download the WordNet corpus
nltk.download('wordnet')
# Initialize the WordNet lemmatizer
lemmatizer = WordNetLemmatizer()
# Parts of speech, 'v' for verb and 'n' for noun
parts_of_speech = ['v', 'n']
# Lemmatize words
lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech]
print("Lemmatized words:", lemmatized_words)

Voit jättää sanaluokan määrittämättä kutsumalla `lemmatizer.lemmatize("running")`, mutta kuten huomaat, eri sanaluokat tuottavat erilaisia tuloksia. Siksi olisi parasta suorittaa **sanaluokkien tunnistus** etukäteen.

Mikä on lemmatisaation ensisijainen etu verrattuna stemmaukseen?

Hallitse käytännön NLP-putkistot hyödyntäen TensorFlow'ta ja NLTK:ta. Painopisteenä edistynyt tekstin esikäsittely, tokenisointi sekä sanaupotusten, mukaan lukien Word2Vec, toteutus. Tämä kurssi on suunnattu syväoppimisen insinööreille, jotka hakevat käytännön kokemusta vankkojen NLP-perustojen rakentamiseen tekoälysovelluksia varten.

Lemmatisaatio

Lemmatisaation ymmärtäminen

Lemmatisaatio NLTK:lla