Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lernen Herausforderung: Bag of Words | Grundlegende Textmodelle
Einführung in NLP

bookHerausforderung: Bag of Words

Aufgabe

Swipe to start coding

Sie verfügen über ein Textkorpus, das in der Variablen corpus gespeichert ist. Ihre Aufgabe ist es, den Vektor für das Bigramm 'graphic design' in einem BoW-Modell anzuzeigen. Gehen Sie dazu wie folgt vor:

  1. Importieren Sie die Klasse CountVectorizer, um ein BoW-Modell zu erstellen.
  2. Instanziieren Sie die Klasse CountVectorizer als count_vectorizer und konfigurieren Sie sie für ein frequenzbasiertes Modell, das sowohl Unigramme als auch Bigramme umfasst.
  3. Verwenden Sie die geeignete Methode von count_vectorizer, um aus der Spalte 'Document' im corpus eine BoW-Matrix zu erzeugen, und speichern Sie das Ergebnis in bow_matrix.
  4. Konvertieren Sie bow_matrix in ein dichtes Array und erstellen Sie daraus ein DataFrame, wobei Sie die einzigartigen Merkmale (Unigramme und Bigramme) als Spalten festlegen. Speichern Sie das Ergebnis in der Variablen bow_df.
  5. Zeigen Sie den Vektor für das Bigramm 'graphic design' als Array an.

Lösung

War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
single

single

Fragen Sie AI

expand

Fragen Sie AI

ChatGPT

Fragen Sie alles oder probieren Sie eine der vorgeschlagenen Fragen, um unser Gespräch zu beginnen

close

Awesome!

Completion rate improved to 3.45

bookHerausforderung: Bag of Words

Swipe um das Menü anzuzeigen

Aufgabe

Swipe to start coding

Sie verfügen über ein Textkorpus, das in der Variablen corpus gespeichert ist. Ihre Aufgabe ist es, den Vektor für das Bigramm 'graphic design' in einem BoW-Modell anzuzeigen. Gehen Sie dazu wie folgt vor:

  1. Importieren Sie die Klasse CountVectorizer, um ein BoW-Modell zu erstellen.
  2. Instanziieren Sie die Klasse CountVectorizer als count_vectorizer und konfigurieren Sie sie für ein frequenzbasiertes Modell, das sowohl Unigramme als auch Bigramme umfasst.
  3. Verwenden Sie die geeignete Methode von count_vectorizer, um aus der Spalte 'Document' im corpus eine BoW-Matrix zu erzeugen, und speichern Sie das Ergebnis in bow_matrix.
  4. Konvertieren Sie bow_matrix in ein dichtes Array und erstellen Sie daraus ein DataFrame, wobei Sie die einzigartigen Merkmale (Unigramme und Bigramme) als Spalten festlegen. Speichern Sie das Ergebnis in der Variablen bow_df.
  5. Zeigen Sie den Vektor für das Bigramm 'graphic design' als Array an.

Lösung

Switch to desktopWechseln Sie zum Desktop, um in der realen Welt zu übenFahren Sie dort fort, wo Sie sind, indem Sie eine der folgenden Optionen verwenden
War alles klar?

Wie können wir es verbessern?

Danke für Ihr Feedback!

Abschnitt 3. Kapitel 5
single

single

some-alt