Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Visualisation des Données | Traitement du Langage Naturel
Identifier les Mots les Plus Fréquents dans un Texte

book
Visualisation des Données

Maintenant que nous avons couvert les fonctionnalités clés du package nltk, passons à la visualisation de nos données. Nous commencerons par calculer la fréquence des mots puis afficherons ces fréquences à l'aide d'un diagramme à barres.

Tâche

Swipe to start coding

  1. Calculer la distribution de fréquence des mots tokenisés de votre texte.
  2. Trouver les 30 mots les plus fréquents dans cette distribution.

Solution

# Import matplotlib for data visualization
import matplotlib.pyplot as plt

# Create a subplot for a bar chart
fig, axs = plt.subplots(nrows=1, ncols=1, figsize=(18,5),
gridspec_kw={"height_ratios": [1],
"hspace": 0.7})

# Calculate frequency distribution of the tokenized words
fdist = nltk.FreqDist(story_tokenized)

# Find the top 30 most common words
top_30_words = fdist.most_common(30)

# Plot a bar chart for the top 30 words
axs.bar([word[0] for word in top_30_words], [word[1] for word in top_30_words])

# Add text labels for each bar with the count of the words
for i in range(len(top_30_words)):
axs.text(i, top_30_words[i][1], str(top_30_words[i][1]))
axs.set_xticklabels([word[0] for word in top_30_words], rotation=45)
axs.set_title("Top 30 Words")
axs.set_xlabel("Word")
axs.set_ylabel("Count of Words")
plt.show()

Mark tasks as Completed
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10
some-alt