Kursinhalt
Ermittlung der Häufigsten Wörter im Text
Ermittlung der Häufigsten Wörter im Text
Regexp-Tokenizer
RegexpTokenizer
ist eine Klasse in NLTK, die zum Tokenisieren von Textdaten unter Verwendung von regulären Ausdrücken entwickelt wurde. Diese Ausdrücke sind mächtige Muster, die in der Lage sind, spezifische Zeichenfolgen im Text, wie Wörter oder Satzzeichen, zu erkennen.
Der RegexpTokenizer
ist besonders vorteilhaft in Szenarien, die eine angepasste Tokenisierung erfordern.
Aufgabe
Swipe to start coding
- Importieren Sie den RegexpTokenizer für die Tokenisierung auf Basis eines regulären Ausdrucksmusters aus NLTK.
- Erstellen Sie einen Tokenizer der den Text in Wörter zerlegt unter Verwendung eines spezifischen regulären Ausdrucks.
- Tokenisieren Sie die lemmatisierten Wörter, um eine Liste von Wörtern zu erzeugen.
Lösung
Mark tasks as Completed
War alles klar?
Danke für Ihr Feedback!
Abschnitt 1. Kapitel 9
AVAILABLE TO ULTIMATE ONLY