Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Wörter Tokenisieren | Extrahieren der Textbedeutung mit TF-IDF
Extrahieren der Textbedeutung mit TF-IDF

book
Wörter Tokenisieren

Diese Phase ist entscheidend, da sie den Text für anspruchsvolle NLP-Aufgaben vorbereitet, indem Sätze in ihre einzelnen Wörter zerlegt und häufig verwendete Wörter entfernt werden, die wenig semantischen Wert bieten. Dieser Prozess umfasst mehrere wichtige Schritte:

Vorverarbeitung von Sätzen

Zunächst durchläuft jeder Satz eine Vorverarbeitungsroutine, die darauf abzielt:

  • Nicht-alphabetische Zeichen entfernen: Durch die Verwendung von regulären Ausdrücken (re.sub(r'[^a-zA-Z\s]', '', sentence)) werden alle Zeichen außer Buchstaben und Leerzeichen aus den Sätzen entfernt. Dieser Schritt reinigt den Text und stellt sicher, dass nur bedeutungsvolle Wortinhalte erhalten bleiben;
  • In Kleinbuchstaben umwandeln: Jeder Satz wird in Kleinbuchstaben umgewandelt (sentence.lower()), um den Text zu standardisieren und Diskrepanzen zu beseitigen, die durch Groß- und Kleinschreibung entstehen könnten.

Worttokenisierung

Nach der Vorverarbeitung sind die Sätze bereit, in einzelne Wörter zerlegt zu werden.

Verwendung der Worttokenisierung: Wir wenden word_tokenize auf jeden bereinigten Satz an. Diese Funktion segmentiert Sätze in Wortlisten und verlagert damit unsere Analyse von der Satzebene auf die Wortebene, was für eine detaillierte Textanalyse unerlässlich ist.

Entfernung von Stoppwörtern

Ein wesentlicher Bestandteil der Textvorverarbeitung ist die Entfernung von Stoppwörtern:

  • Definition von Stoppwörtern: Stoppwörter (häufige Wörter wie "the", "is", "in", etc.) werden aus dem Textkorpus von NLTK 'stopwords' mit stopwords.words("english") abgerufen. Diese Wörter sind strukturell wichtig, tragen jedoch oft wenig individuelle Bedeutung und können die Analyse überladen;
  • Filtern von Stoppwörtern: Jeder tokenisierte Satz wird gefiltert, um Stoppwörter auszuschließen. Dieser Verfeinerungsschritt behält nur die Wörter bei, die wesentlich zum semantischen Inhalt des Textes beitragen, und verbessert so den Fokus und die Effizienz der nachfolgenden analytischen Prozesse.
Aufgabe

Swipe to start coding

  1. Laden Sie die notwendigen NLTK-Module herunter und importieren Sie Funktionen zum Arbeiten mit Stoppwörtern und Tokenisierung.
  2. Tokenisieren Sie jeden bereinigten Satz in einzelne Wörter.
  3. Laden Sie eine Menge englischer Stoppwörter aus dem NLTK-Korpus.
  4. Filtern Sie Stoppwörter aus jedem tokenisierten Satz heraus.

Lösung

# Importing necessary modules
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Pre-processing each sentence
tokenized_sentences = [re.sub(r'[^a-zA-Z\s]', '', sentence).lower() for sentence in sentences]

# Tokenizing each cleaned sentence into individual words
tokenized_sentences = [word_tokenize(sentence) for sentence in tokenized_sentences]

# Loading a set of English stopwords from NLTK's corpus
stop_words = set(stopwords.words("english"))

# Filtering out stopwords from each tokenized sentence
tokenized_sentences = [[word for word in words if word not in stop_words] for words in tokenized_sentences]

# Displaying the first two tokenized and filtered sentences
tokenized_sentences[:2]

Mark tasks as Completed
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 1. Kapitel 6
AVAILABLE TO ULTIMATE ONLY
some-alt