Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Visualisation des Données | Identifier les Mots les Plus Fréquents dans un Texte
Identifier les Mots les Plus Fréquents dans un Texte

book
Visualisation des Données

Maintenant que nous avons couvert les fonctionnalités clés du package nltk, passons à la visualisation de nos données. Nous commencerons par calculer la fréquence des mots puis afficherons ces fréquences à l'aide d'un diagramme à barres.

Tâche

Swipe to start coding

  1. Calculer la distribution de fréquence des mots tokenisés de votre texte.
  2. Trouver les 30 mots les plus fréquents dans cette distribution.

Solution

# Import matplotlib for data visualization
import matplotlib.pyplot as plt

# Create a subplot for a bar chart
fig, axs = plt.subplots(nrows=1, ncols=1, figsize=(18,5),
gridspec_kw={"height_ratios": [1],
"hspace": 0.7})

# Calculate frequency distribution of the tokenized words
fdist = nltk.FreqDist(story_tokenized)

# Find the top 30 most common words
top_30_words = fdist.most_common(30)

# Plot a bar chart for the top 30 words
axs.bar([word[0] for word in top_30_words], [word[1] for word in top_30_words])

# Add text labels for each bar with the count of the words
for i in range(len(top_30_words)):
axs.text(i, top_30_words[i][1], str(top_30_words[i][1]))
axs.set_xticklabels([word[0] for word in top_30_words], rotation=45)
axs.set_title("Top 30 Words")
axs.set_xlabel("Word")
axs.set_ylabel("Count of Words")
plt.show()

Mark tasks as Completed
Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 10
AVAILABLE TO ULTIMATE ONLY
some-alt