Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Regexp-Tokenizer | Ermittlung der Häufigsten Wörter im Text
Ermittlung der Häufigsten Wörter im Text
course content

Kursinhalt

Ermittlung der Häufigsten Wörter im Text

book
Regexp-Tokenizer

RegexpTokenizer ist eine Klasse in NLTK, die zum Tokenisieren von Textdaten unter Verwendung von regulären Ausdrücken entwickelt wurde. Diese Ausdrücke sind mächtige Muster, die in der Lage sind, spezifische Zeichenfolgen im Text, wie Wörter oder Satzzeichen, zu erkennen.

Der RegexpTokenizer ist besonders vorteilhaft in Szenarien, die eine angepasste Tokenisierung erfordern.

Aufgabe

Swipe to start coding

  1. Importieren Sie den RegexpTokenizer für die Tokenisierung auf Basis eines regulären Ausdrucksmusters aus NLTK.
  2. Erstellen Sie einen Tokenizer der den Text in Wörter zerlegt unter Verwendung eines spezifischen regulären Ausdrucks.
  3. Tokenisieren Sie die lemmatisierten Wörter, um eine Liste von Wörtern zu erzeugen.

Lösung

Mark tasks as Completed
Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 9
AVAILABLE TO ULTIMATE ONLY
We're sorry to hear that something went wrong. What happened?
some-alt