Sektion 1. Kapitel 25
single
Udfordring: TF-IDF
Stryg for at vise menuen
Opgave
Swipe to start coding
Du har et tekstkorpus gemt i variablen corpus. Din opgave er at vise vektoren for unigrampen 'medical' i en TF-IDF-model med unigramp, bigrammer og trigrammer. For at gøre dette:
- Importér klassen
TfidfVectorizerfor at oprette en TF-IDF-model. - Instantier klassen
TfidfVectorizersomtfidf_vectorizerog konfigurer den til at inkludere unigrammer, bigrammer og trigrammer. - Brug den relevante metode fra
tfidf_vectorizertil at generere en TF-IDF-matrix ud fra kolonnen'Document'icorpusog gem resultatet itfidf_matrix. - Konverter
tfidf_matrixtil et tæt array og opret enDataFrameud fra det, hvor de unikke features (termer) sættes som kolonner. Gem resultatet i variablentfidf_matrix_df. - Vis vektoren for
'medical'som et array.
Løsning
Var alt klart?
Tak for dine kommentarer!
Sektion 1. Kapitel 25
single
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat