Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Lemmatisering | Stamning och LemmatiseRing
Introduktion till NLP

bookLemmatisering

Förståelse av lemmatisering

Note
Definition

Lemmatisering är en textnormaliseringsteknik som används inom NLP för att reducera ord till deras ordboksform, kallad lemma.

Till skillnad från stemming, som grovt tar bort affix, tar lemmatisering hänsyn till kontexten och omvandlar ordet till dess ordboksform. Till exempel lemmatiseras 'am', 'are' och 'is' till 'be'. Denna metod kan avsevärt minska ordförrådets storlek (antalet unika ord) i stora textkorpusar, vilket ökar effektiviteten vid modellträning.

Å andra sidan är lemmatisering mer exakt, men också mer beräkningskrävande och kan vara tidskrävande vid stora datamängder. För ännu bättre noggrannhet rekommenderas dessutom morfologisk analys och ordklassmärkning före lemmatisering.

Note
Notera

Oroa dig inte för part-of-speech tagging just nu, eftersom detta är nästa ämne du kommer att lära dig om.

Lemmatization med NLTK

WordNet Lemmatizer, som tillhandahålls av NLTK-biblioteket, använder WordNet-korpuset för att utföra lemmatisering.

Note
Läs mer

WordNet är en semantiskt rik lexikal databas för engelska som går långt utöver ett enkelt korpus. Den grupperar ord i synonyma uppsättningar, eller synsets, där varje uppsättning representerar ett distinkt begrepp och åtföljs av definitioner och användningsexempel. Dessutom kodar WordNet meningsfulla relationer mellan dessa synsets — såsom hypernymer (bredare, mer generella termer) och hyponymer (snävare, mer specifika termer) — vilket erbjuder en kraftfull ram för att utforska och särskilja ords betydelser.

När du använder WordNet Lemmatizer slår den upp det aktuella ordet i WordNet-databasen för att hitta den mest lämpliga lemmat av ordet.

Som nämnts ovan kan ord ha olika betydelser i olika sammanhang (t.ex. "running" som verb kontra "running" som substantiv), och därför kan lemmatizern kräva att du anger ordklass (t.ex. verb, substantiv, adjektiv). Detta hjälper den att välja rätt lemma baserat på ordets roll i en mening.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Du kan utelämna att ange ordklass genom att anropa lemmatizer.lemmatize("running"), men som du kan se ger olika ordklasser olika resultat. Därför är det bäst att utföra ordklassmärkning i förväg.

question mark

Vad är den främsta fördelen med att använda lemmatisering jämfört med stemming?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 3

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Suggested prompts:

Can you explain the difference between stemming and lemmatization in more detail?

How does specifying the part of speech affect the lemmatization result?

Why is lemmatization considered more computationally expensive than stemming?

Awesome!

Completion rate improved to 3.45

bookLemmatisering

Svep för att visa menyn

Förståelse av lemmatisering

Note
Definition

Lemmatisering är en textnormaliseringsteknik som används inom NLP för att reducera ord till deras ordboksform, kallad lemma.

Till skillnad från stemming, som grovt tar bort affix, tar lemmatisering hänsyn till kontexten och omvandlar ordet till dess ordboksform. Till exempel lemmatiseras 'am', 'are' och 'is' till 'be'. Denna metod kan avsevärt minska ordförrådets storlek (antalet unika ord) i stora textkorpusar, vilket ökar effektiviteten vid modellträning.

Å andra sidan är lemmatisering mer exakt, men också mer beräkningskrävande och kan vara tidskrävande vid stora datamängder. För ännu bättre noggrannhet rekommenderas dessutom morfologisk analys och ordklassmärkning före lemmatisering.

Note
Notera

Oroa dig inte för part-of-speech tagging just nu, eftersom detta är nästa ämne du kommer att lära dig om.

Lemmatization med NLTK

WordNet Lemmatizer, som tillhandahålls av NLTK-biblioteket, använder WordNet-korpuset för att utföra lemmatisering.

Note
Läs mer

WordNet är en semantiskt rik lexikal databas för engelska som går långt utöver ett enkelt korpus. Den grupperar ord i synonyma uppsättningar, eller synsets, där varje uppsättning representerar ett distinkt begrepp och åtföljs av definitioner och användningsexempel. Dessutom kodar WordNet meningsfulla relationer mellan dessa synsets — såsom hypernymer (bredare, mer generella termer) och hyponymer (snävare, mer specifika termer) — vilket erbjuder en kraftfull ram för att utforska och särskilja ords betydelser.

När du använder WordNet Lemmatizer slår den upp det aktuella ordet i WordNet-databasen för att hitta den mest lämpliga lemmat av ordet.

Som nämnts ovan kan ord ha olika betydelser i olika sammanhang (t.ex. "running" som verb kontra "running" som substantiv), och därför kan lemmatizern kräva att du anger ordklass (t.ex. verb, substantiv, adjektiv). Detta hjälper den att välja rätt lemma baserat på ordets roll i en mening.

1234567891011
from nltk.stem import WordNetLemmatizer import nltk # Download the WordNet corpus nltk.download('wordnet') # Initialize the WordNet lemmatizer lemmatizer = WordNetLemmatizer() # Parts of speech, 'v' for verb and 'n' for noun parts_of_speech = ['v', 'n'] # Lemmatize words lemmatized_words = [lemmatizer.lemmatize("running", pos) for pos in parts_of_speech] print("Lemmatized words:", lemmatized_words)
copy

Du kan utelämna att ange ordklass genom att anropa lemmatizer.lemmatize("running"), men som du kan se ger olika ordklasser olika resultat. Därför är det bäst att utföra ordklassmärkning i förväg.

question mark

Vad är den främsta fördelen med att använda lemmatisering jämfört med stemming?

Select the correct answer

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 3
some-alt