Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Wortarten-Tagging | Abschnitt
Practice
Projects
Quizzes & Challenges
Quizze
Challenges
/
Verarbeitung natürlicher Sprache

bookWortarten-Tagging

Swipe um das Menü anzuzeigen

Note
Definition

Part-of-Speech-Tagging (POS-Tagging) ist der Prozess, bei dem ein Wort in einem Text (Korpus) als eine bestimmte Wortart (z. B. Substantiv oder Verb) markiert wird, basierend sowohl auf seiner Definition als auch auf seinem Kontext – also seiner Beziehung zu benachbarten und verwandten Wörtern in einem Satz, einer Phrase oder einem Absatz.

Die Verwendung vollständiger Bezeichnungen für Wortarten (z. B. "Verb" oder "Substantiv") kann insbesondere bei großen Korpora sehr umständlich werden. Daher werden stattdessen kurze Darstellungen, sogenannte Tags, verwendet. Zum Beispiel "VB" anstelle von Verb. In der Praxis nutzen jedoch verschiedene POS-Tagger teilweise unterschiedliche Tags und detailliertere Tags wie "VBD" für Verben im Präteritum.

POS-Tagging mit NLTK

Um Part-of-Speech-Tagging mit NLTK durchzuführen, sollte die Funktion pos_tag() direkt aus nltk importiert und auf die Liste von Strings (Tokens) angewendet werden, indem diese als Argument übergeben wird.

123456789101112
from nltk.tokenize import word_tokenize from nltk import pos_tag import nltk nltk.download('punkt_tab') # Download the model needed for NLTK's POS tagging nltk.download('averaged_perceptron_tagger_eng') text = "One of the key NLP tasks is part of speech tagging" text = text.lower() tokens = word_tokenize(text) # Perform POS tagging tagged_tokens = pos_tag(tokens) print(tagged_tokens)
copy

Diese Funktion gibt eine Liste von Tupeln zurück, die jeweils ein Token und dessen Tag enthalten. Die Zeile nltk.download('averaged_perceptron_tagger_eng') startet den Download des Datensatzes und der Modelle, die für den PerceptronTagger benötigt werden, welcher der Standard-POS-Tagger in NLTK ist.

Note
Mehr erfahren

Dieser Tagger basiert auf dem Averaged-Perceptron-Modell, einem überwachten Lernalgorithmus, der sich für die Verarbeitung großer Textmengen eignet, einschließlich POS-Tagging. Der PerceptronTagger wird aufgrund seines ausgewogenen Verhältnisses von Geschwindigkeit und Genauigkeit ausgewählt und ist damit für eine Vielzahl von NLP-Aufgaben geeignet, die POS-Tagging erfordern. Er lernt Gewichtungen für Merkmale basierend auf den Trainingsdaten und verwendet diese Gewichtungen, um die POS-Tags in unbekannten Texten vorherzusagen.

Für eine bessere visuelle Darstellung können wir das Ergebnis in ein pandas-DataFrame umwandeln:

1234567891011121314
from nltk.tokenize import word_tokenize from nltk import pos_tag import nltk import pandas as pd nltk.download('punkt_tab') # Download the model needed for NLTK's POS tagging nltk.download('averaged_perceptron_tagger_eng') text = "One of the key NLP tasks is part of speech tagging" text = text.lower() tokens = word_tokenize(text) # Perform POS tagging tagged_tokens = pos_tag(tokens) # Convert to DataFrame print(pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']).T)
copy

Alternativ kann pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']) ohne Transponieren des DataFrames verwendet werden, sodass jede Zeile ein Token-Tag-Paar darstellt.

question mark

Was ist das Ziel des Part-of-Speech (POS) Taggings in der NLP?

Select the correct answer

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 14

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

Abschnitt 1. Kapitel 14
some-alt