Affichage et Visualisation des Résultats
Glissez pour afficher le menu
La fonction display() est une commande intégrée de Databricks utilisée pour afficher les données sous un format interactif, tabulaire ou graphique. Elle permet aux utilisateurs d'explorer des ensembles de données et de créer des graphiques visuels directement dans un notebook, sans avoir besoin de bibliothèques externes.
Dans Databricks, exécuter simplement le nom d'une variable ou une requête affichera les données brutes. Cependant, pour rendre ces données lisibles et « prêtes à être présentées », nous utilisons la commande display(). Il s'agit du principal moyen de transformer des chiffres bruts en informations visuelles.
La puissance de display()
Lorsque vous travaillez avec Python, vous avez peut-être l'habitude d'utiliser print(). Bien que print() fonctionne pour le texte, il n'est pas idéal pour les grands ensembles de données. En utilisant display(your_dataframe), Databricks affiche les données sous forme de tableau interactif.
Vous pouvez faire défiler des milliers de lignes. Vous pouvez cliquer sur les en-têtes de colonnes pour trier les données par ordre croissant ou décroissant. Vous pouvez utiliser la barre de recherche intégrée dans les résultats pour trouver instantanément des valeurs spécifiques :
- Vous pouvez faire défiler des milliers de lignes ;
- Vous pouvez cliquer sur les en-têtes de colonnes pour trier les données par ordre croissant ou décroissant ;
- Vous pouvez utiliser la barre de recherche intégrée dans les résultats pour trouver instantanément des valeurs spécifiques.
Création de graphiques automatiques
Une fois que vous avez exécuté une cellule avec display() ou lancé une requête SQL, un tableau de résultats apparaît. Juste en dessous de ce tableau, vous verrez une icône "+". En cliquant dessus, vous pouvez sélectionner "Visualization".
- Cela ouvre l'éditeur de visualisation (Visualization Editor) ;
- Vous pouvez choisir parmi différents types de graphiques : barre, ligne, aire, secteur, nuage de points, et plus encore ;
- Il suffit de faire glisser les colonnes souhaitées pour les axes X et Y. Databricks gère automatiquement l'agrégation (comme la somme ou la moyenne des valeurs).
Personnalisation des visuels
L’éditeur de visualisation est conçu pour la rapidité. Vous pouvez :
- Changer les couleurs : attribuer des couleurs spécifiques à différentes séries de données ;
- Étiqueter les axes : ajouter des titres personnalisés à vos axes horizontal et vertical ;
- Grouper les données : utiliser le champ « Grouper par » pour diviser un graphique linéaire en plusieurs lignes selon une catégorie, comme « Region » ou « Product Type ».
Ajout de visuels au notebook
Une fois la visualisation enregistrée, elle apparaît sous forme d’un onglet distinct à côté de votre table de données. Il est possible d’avoir plusieurs visualisations pour une même cellule. Par exemple, un onglet peut afficher les données brutes de ventes, un second un graphique en barres des ventes par région, et un troisième un graphique en secteurs de la répartition des produits. Cela permet de garder le notebook organisé et d’offrir aux parties prenantes une vue d’ensemble des données sans consulter le code sous-jacent.
Profilage des données
En plus des graphiques, Databricks propose un onglet « Data Profile » dans la zone des résultats. En cliquant dessus, vous obtenez un résumé statistique instantané de vos données, affichant la distribution des valeurs, le nombre de valeurs manquantes et les plages min/max pour chaque colonne. Cette étape est essentielle pour le nettoyage des données avant d’entamer une analyse approfondie.
1. Quel est le principal avantage d'utiliser display() au lieu de print() pour un ensemble de données ?
2. Où faut-il cliquer pour commencer à créer un graphique à partir des résultats de votre requête ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion