Summary  
Demonstrates how to tokenize text and apply part-of-speech tagging using a library function to produce a list of (token, tag) pairs, and how to format those results into a tabular structure.

General domain of usage  
Natural Language Processing

**Part-of-Speech-Tagging (POS-Tagging)** ist der Prozess, bei dem ein Wort in einem Text (Korpus) als eine bestimmte **Wortart** (z. B. Substantiv oder Verb) markiert wird, basierend sowohl auf seiner Definition als auch auf seinem Kontext – also seiner Beziehung zu benachbarten und verwandten Wörtern in einem Satz, einer Phrase oder einem Absatz.

Definition

Die Verwendung vollständiger Bezeichnungen für Wortarten (z. B. "Verb" oder "Substantiv") kann insbesondere bei großen Korpora sehr umständlich werden. Daher werden stattdessen kurze Darstellungen, sogenannte **Tags**, verwendet. Zum Beispiel **"VB"** anstelle von **Verb**. In der Praxis nutzen jedoch verschiedene POS-Tagger teilweise unterschiedliche Tags und detailliertere Tags wie **"VBD"** für **Verben im Präteritum**.

## POS-Tagging mit NLTK

Um Part-of-Speech-Tagging mit NLTK durchzuführen, sollte die Funktion `pos_tag()` direkt aus `nltk` importiert und auf die **Liste von Strings (Tokens)** angewendet werden, indem diese als Argument übergeben wird.



from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
print(tagged_tokens)

Diese Funktion gibt eine **Liste von Tupeln** zurück, die jeweils ein Token und dessen Tag enthalten. Die Zeile `nltk.download('averaged_perceptron_tagger_eng')` startet den Download des Datensatzes und der Modelle, die für den **PerceptronTagger** benötigt werden, welcher der Standard-POS-Tagger in NLTK ist.

Dieser Tagger basiert auf dem **Averaged-Perceptron-Modell**, einem überwachten Lernalgorithmus, der sich für die Verarbeitung großer Textmengen eignet, einschließlich POS-Tagging. Der PerceptronTagger wird aufgrund seines **ausgewogenen Verhältnisses von Geschwindigkeit und Genauigkeit** ausgewählt und ist damit für eine Vielzahl von NLP-Aufgaben geeignet, die POS-Tagging erfordern. Er lernt Gewichtungen für Merkmale basierend auf den Trainingsdaten und verwendet diese Gewichtungen, um die POS-Tags in unbekannten Texten vorherzusagen.



Mehr erfahren

Für eine bessere visuelle Darstellung können wir das Ergebnis in ein pandas-**DataFrame** umwandeln:

from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
import pandas as pd
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
# Convert to DataFrame
print(pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']).T)

Alternativ kann `pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag'])` ohne Transponieren des DataFrames verwendet werden, sodass jede Zeile ein Token-Tag-Paar darstellt.

Was ist das Ziel des Part-of-Speech (POS) Taggings in der NLP?

Beherrschen Sie praktische NLP-Pipelines mit TensorFlow und NLTK. Schwerpunkt auf fortgeschrittener Textvorverarbeitung, Tokenisierung und der Implementierung von Wort-Embeddings, einschließlich Word2Vec. Dieser Kurs richtet sich an Deep-Learning-Ingenieure, die praktische Erfahrung im Aufbau robuster NLP-Grundlagen für KI-Anwendungen suchen.

Wortarten-Tagging

POS-Tagging mit NLTK