Summary  
Demonstrates how to tokenize text and apply part-of-speech tagging using a library function to produce a list of (token, tag) pairs, and how to format those results into a tabular structure.

General domain of usage  
Natural Language Processing

**Part-of-speech (POS) tagging** is het proces waarbij een woord in een tekst (corpus) wordt gemarkeerd als behorend tot een bepaald **woordsoort** (bijv. zelfstandig naamwoord of werkwoord), op basis van zowel de definitie als de context — dat wil zeggen, de relatie met aangrenzende en gerelateerde woorden in een uitdrukking, zin of alinea.

Definitie

Het gebruik van volledige woordsoortnamen (bijv. "werkwoord" of "zelfstandig naamwoord") kan behoorlijk omslachtig worden, vooral bij een groot corpus. Daarom worden korte aanduidingen, bekend als **tags**, gebruikt. Bijvoorbeeld, **"VB"** in plaats van **werkwoord**. In de praktijk kunnen verschillende POS-taggers echter iets andere tags en meer gedetailleerde tags gebruiken, zoals **"VBD"** voor **werkwoorden in de verleden tijd**.

## POS-tagging met NLTK

Voor het uitvoeren van part-of-speech tagging met NLTK, dient de functie `pos_tag()` direct uit `nltk` geïmporteerd te worden en toegepast te worden op de **lijst van strings (tokens)** door deze als argument mee te geven.



from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
print(tagged_tokens)

Deze functie retourneert een **lijst van tuples**, elk bestaande uit een token en het bijbehorende label. De regel `nltk.download('averaged_perceptron_tagger_eng')` start het downloaden van de dataset en modellen die nodig zijn voor de **PerceptronTagger**, de standaard POS-tagger die door NLTK wordt gebruikt.

Deze tagger is gebaseerd op het **averaged perceptron model**, een supervisie-leeralgoritme dat effectief is voor grootschalige tekstverwerking, waaronder POS-tagging. De PerceptronTagger wordt gekozen vanwege de **balans tussen snelheid en nauwkeurigheid**, waardoor deze geschikt is voor uiteenlopende NLP-taken die POS-tagging vereisen. Het model leert gewichten voor kenmerken op basis van de trainingsdata en gebruikt deze gewichten om POS-labels te voorspellen in niet eerder geziene tekst.



Meer Bestuderen

Voor een betere visuele weergave kunnen we het resultaat omzetten naar een pandas **DataFrame**:

from nltk.tokenize import word_tokenize
from nltk import pos_tag
import nltk
import pandas as pd
nltk.download('punkt_tab')
# Download the model needed for NLTK's POS tagging
nltk.download('averaged_perceptron_tagger_eng')
text = "One of the key NLP tasks is part of speech tagging"
text = text.lower()
tokens = word_tokenize(text)
# Perform POS tagging
tagged_tokens = pos_tag(tokens)
# Convert to DataFrame
print(pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag']).T)

Als alternatief kunnen we `pd.DataFrame(tagged_tokens, columns=['Token', 'POS tag'])` gebruiken zonder de DataFrame te transponeren, zodat elke rij een token-tagpaar weergeeft.

Wat is het doel van part-of-speech (POS) tagging in NLP?

Beheers praktische NLP-pijplijnen met TensorFlow en NLTK. Focus op geavanceerde tekstvoorbewerking, tokenisatie en de implementatie van woordembeddings, waaronder Word2Vec. Deze cursus is afgestemd op deep learning engineers die praktijkervaring willen opdoen in het bouwen van robuuste NLP-fundamenten voor AI-toepassingen.

Woordsoorttagging

POS-tagging met NLTK