Principaux Composants de Databricks
Glissez pour afficher le menu
L'écosystème Databricks repose sur trois piliers fondamentaux : l’Espace de travail (votre bureau), le Cluster (votre moteur) et le Notebook (votre canevas interactif). Comprendre comment ces trois éléments interagissent est la clé pour maîtriser la plateforme.
Maintenant que vous comprenez la théorie derrière le Lakehouse, il est temps de découvrir les outils que vous utiliserez au quotidien. Si vous construisiez une voiture, vous auriez besoin d’un garage pour travailler, d’un moteur pour la faire avancer et d’un tableau de bord pour la contrôler. Dans Databricks, ces rôles sont assurés par l’Espace de travail, le Cluster et le Notebook. Examinons-les un par un pour comprendre comment ils forment un écosystème de données unifié.
L’Espace de travail : votre centre de commande collaboratif
Considérez l’Espace de travail comme votre immeuble de bureaux numérique. Lorsque vous vous connectez à Databricks, c’est l’environnement dans lequel vous arrivez. Il s’agit d’une interface centralisée, basée sur le cloud, où se trouvent tous vos actifs : vos dossiers, vos fichiers, vos bibliothèques et vos paramètres de sécurité.
Autrefois, différentes équipes travaillaient dans des « bâtiments » séparés. Les ingénieurs de données utilisaient un outil, les data scientists un autre, et les analystes métier étaient souvent isolés dans une suite de reporting distincte. L’Espace de travail Databricks réunit tout le monde sous un même toit.
Dans l’Espace de travail, vous trouverez les fonctionnalités immédiates suivantes :
- La barre latérale : navigation principale pour passer entre les environnements de data science, d’ingénierie et SQL, ainsi que des liens vers le Catalogue (où se trouvent les données) et le Calcul (où vous configurez vos clusters) ;
- L’écran principal : zone où Databricks initialise la fonctionnalité avec laquelle vous travaillez – de la configuration des Clusters, au travail sur les Notebooks et à la navigation dans le Catalogue, tout apparaît ici ;
- La fonction de recherche : disponible en haut de l’écran, permet d’accéder directement à votre travail, comme sur votre ordinateur portable, mais accessible à toute votre équipe ;
- Paramètres : section où vous pouvez parcourir les options disponibles pour votre compte, et où les administrateurs définissent qui peut voir quelles données, garantissant la protection des informations sensibles tout en permettant la collaboration. Toutes les fonctionnalités de Databricks sont accessibles via la barre latérale. Cela inclut également les fonctionnalités de base que vous allez découvrir dans ce chapitre.
Le Cluster : La salle des machines
Si l’Espace de travail est le bureau, le Cluster est la machinerie lourde au sous-sol qui effectue tout le travail. Comme vous traitez du « Big Data », un seul ordinateur ne suffit généralement pas à traiter toutes les informations.
Un Cluster est un ensemble de « serveurs » virtuels dans le cloud qui fonctionnent ensemble comme une seule machine puissante. Lorsque vous écrivez un code pour analyser un milliard de lignes de données, l’Espace de travail envoie cette commande au Cluster. Le Cluster divise alors la tâche en morceaux plus petits, les traite sur plusieurs « nœuds » (ordinateurs individuels), puis vous renvoie le résultat.
Points clés à connaître sur les Clusters :
- Scalabilité : possibilité de démarrer un petit cluster pour une tâche rapide ou un cluster massif pour un apprentissage automatique complexe ;
- Arrêt automatique : l’une des meilleures fonctionnalités de Databricks est la possibilité de configurer les clusters pour qu’ils « s’endorment » lorsqu’ils ne sont pas utilisés. Cela permet de réaliser d’importantes économies, car vous ne payez le « moteur » que lorsqu’il fonctionne réellement ;
- Cluster à nœud unique vs. multi-nœuds : pour les débutants, il est conseillé d’utiliser un cluster « à nœud unique » – un seul ordinateur – pour économiser de l’argent tout en apprenant les bases.
Le Notebook : Votre Toile de Création
Enfin, vous disposez du Notebook, l’endroit où vous passerez 90 % de votre temps. Si vous avez déjà utilisé Jupyter Notebooks ou Google Colab, cela vous semblera très familier. Sinon, considérez-le comme un « document intelligent ».
Un Notebook vous permet de combiner trois éléments au même endroit :
- Code en direct : possibilité d’écrire et d’exécuter du Python, SQL, R ou Scala ;
- Visualisations : au lieu de voir uniquement un tableau de chiffres, vous pouvez générer instantanément des graphiques et des diagrammes avec une seule commande ;
- Documentation : possibilité d’écrire du « Markdown » (texte formaté) pour expliquer ce que fait votre code. Cela rend votre travail lisible pour d’autres personnes, pas seulement pour les machines.
La « magie » des notebooks Databricks réside dans leur flexibilité. Grâce à ce que l’on appelle les « Magic Commands », vous pouvez écrire du Python dans une cellule pour nettoyer vos données, puis passer au SQL dans la cellule suivante pour les interroger. Il n’est pas nécessaire de choisir un seul langage ; vous utilisez l’outil le plus adapté à la tâche spécifique.
Comment ils fonctionnent ensemble
Voyons un scénario réel pour illustrer l’harmonie entre ces trois éléments. Imaginez que vous êtes analyste dans une entreprise de voyages internationale. Vous ouvrez l’Espace de travail pour trouver le dossier « Monthly Sales ». Vous créez un nouveau Notebook dans ce dossier et lui donnez un nom.
Cependant, votre notebook n’est qu’une feuille de papier tant que vous ne l’« attachez » pas à un Cluster. Une fois attaché, vous écrivez une requête SQL pour calculer le prix moyen des billets. Le Cluster reçoit votre requête, démarre ses moteurs, traite des millions de lignes de données de ventes depuis le cloud et affiche une belle courbe de tendance directement dans votre Notebook. Une fois terminé, vous partagez le lien de ce Notebook avec votre responsable, et le Cluster s’arrête automatiquement vingt minutes plus tard pour économiser de l’argent à l’entreprise.
Voilà l’écosystème Databricks : un espace de travail pour la collaboration, un cluster pour la puissance, et un notebook pour les résultats. Dans le prochain chapitre, nous verrons comment tout cela fonctionne sur différents fournisseurs cloud comme AWS, Azure et Google Cloud.
1. Quel composant est responsable du véritable « travail lourd » et du traitement de vos données ?
2. Qu'est-ce qui rend les notebooks Databricks « collaboratifs » ?
3. Pourquoi la fonctionnalité « Arrêt automatique » d'un cluster est-elle importante ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion