Lernen Stammformen | Stemming und Lemmatisierung

Verständnis von Stemming

Definition

Stemming ist eine Textnormalisierungstechnik, die im NLP verwendet wird, um flektierte Wörter auf ihren Wortstamm zu reduzieren.

Genauer gesagt beinhaltet Stemming das Entfernen von Affixen (meistens nur Suffixen) aus Wörtern, um deren Grundform, den Stamm, zu erhalten. Zum Beispiel ist der Stamm von "running", "runs" und "run" jeweils "run".

Das Ziel von Stemming ist es, die Analyse zu vereinfachen, indem ähnliche Wörter als dieselbe Entität behandelt werden, was letztlich die Effizienz bei verschiedenen NLP-Aufgaben verbessert.

Stemming mit NLTK

NLTK bietet verschiedene Stemming-Algorithmen, wobei die bekanntesten der Porter Stemmer und der Lancaster Stemmer sind. Diese Algorithmen wenden spezifische Regeln an, um Affixe zu entfernen und den Wortstamm zu bestimmen.

Alle Stemmer-Klassen in NLTK verfügen über eine gemeinsame Schnittstelle. Zunächst muss eine Instanz der Stemmer-Klasse erstellt werden, anschließend wird die stem()-Methode für jedes Token verwendet.


              1234567891011121314151617181920212223242526272829
            
import nltk
from nltk.stem import PorterStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

nltk.download('punkt_tab')
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))

# Create a Porter Stemmer instance
porter_stemmer = PorterStemmer()
# Create a Lancaster Stemmer instance
lancaster_stemmer = LancasterStemmer()

text = "Stemming is an essential technique for natural language processing."
text = text.lower()
tokens = word_tokenize(text)

# Filter out the stop words
tokens = [token for token in tokens if token.lower() not in stop_words]

# Apply stemming to each token
porter_stemmed_tokens = [porter_stemmer.stem(token) for token in tokens]
lancaster_stemmed_tokens = [lancaster_stemmer.stem(token) for token in tokens]

# Display the results
print("Original Tokens:", tokens)
print("Stemmed Tokens (Porter Stemmer):", porter_stemmed_tokens)
print("Stemmed Tokens (Lancaster Stemmer):", lancaster_stemmed_tokens)

Zunächst wurde die Tokenisierung durchgeführt, anschließend die Stoppwörter herausgefiltert und schließlich das Stemming auf die Tokens mittels List Comprehension angewendet. Hinsichtlich der Ergebnisse lieferten diese beiden Stemmer recht unterschiedliche Resultate. Dies liegt daran, dass der Lancaster Stemmer etwa doppelt so viele Regeln wie der Porter Stemmer besitzt und zu den "aggressivsten" Stemmern zählt.

Hinweis

Insgesamt ist der Porter Stemmer die beliebteste Option und liefert bedeutungsvollere Ergebnisse als der Lancaster Stemmer, der dazu neigt, Wörter zu stark zu kürzen.

War alles klar?

Danke für Ihr Feedback!

Abschnitt 2. Kapitel 1

Fragen Sie AI

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Swipe um das Menü anzuzeigen