Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce qu'un Cluster ? | Configuration de l'Espace de Travail
Fondamentaux de Databricks : Guide du Débutant

Qu'est-ce qu'un Cluster ?

Glissez pour afficher le menu

Note
Définition

Dans Databricks, Compute (ou un Cluster) désigne un ensemble de ressources informatiques et de configurations sur lesquelles s'exécutent les charges de travail d'ingénierie des données, de science des données et d'analyse de données. Il s'agit en quelque sorte du « moteur » qui alimente vos notebooks et requêtes.

Avant de cliquer sur « Créer », il est important de comprendre ce qui se passe en coulisses. Dans la section précédente, le Cluster a été comparé à la « salle des machines ». Mais que cela signifie-t-il concrètement en termes de matériel ?

Lorsque vous utilisez une application standard comme Excel sur votre ordinateur portable, vous êtes limité par la puissance de cette seule machine. Si vous essayez d’ouvrir un fichier contenant 100 millions de lignes, Excel risque de planter car la « mémoire » de votre ordinateur n’est tout simplement pas suffisante. Databricks résout ce problème grâce au calcul distribué.

L’analogie du restaurant

Pour comprendre le fonctionnement d’un Cluster, imaginez la cuisine d’un restaurant très fréquenté :

  • Le Cluster correspond à l’ensemble de l’équipe en cuisine ;
  • Les Nœuds sont les chefs individuels ;
  • CPU (Central Processing Unit) représente la vitesse du chef. Un chef avec un CPU élevé peut couper les légumes très rapidement ;
  • RAM (Mémoire) correspond à l’espace de travail du chef. Si un chef dispose d’un petit plan de travail, il ne peut préparer qu’une petite assiette à la fois. Avec un grand plan de travail (RAM élevée), il peut disposer tous les ingrédients pour un festin complexe en même temps.

Dans un Cluster Databricks, il existe un nœud pilote (le chef de cuisine) qui organise le travail, et des nœuds de travail (les commis) qui réalisent le traitement des données.

Termes clés que vous verrez dans l'interface utilisateur

Lorsque vous créez votre cluster, vous verrez quelques termes techniques :

  • Type de worker : c'est ici que vous choisissez la « taille » de vos chefs. Avez-vous besoin d'un chef avec beaucoup d'espace de travail (Optimisé pour la mémoire) ou d'un chef extrêmement rapide (Optimisé pour le calcul) ?
  • Version du runtime : il s'agit de « l'environnement d'exécution » de votre cluster. Il contient la version d'Apache Spark et de Python que votre code utilisera. En général, il est recommandé de choisir la dernière version « LTS » (Support à long terme).
  • Nœuds : correspond au nombre de chefs dans votre cuisine. Pour des tâches "Big Data" importantes, il peut être nécessaire d'avoir 10 ou 20 travailleurs. Pour ce cours et votre apprentissage personnel, le mode Nœud unique sera souvent utilisé — un seul chef effectuant tout le travail — afin de limiter les coûts ;
  • Arrêt automatique : le Cluster permet de spécifier le délai en minutes après lequel il s'arrêtera automatiquement. C'est un excellent moyen de réaliser des économies — même un Cluster inactif est facturé à la fois par Databricks et par votre fournisseur cloud, il est donc recommandé d'adopter cette politique. Dans notre analogie, cela correspondrait probablement aux horaires de fin de journée pour les chefs — à un moment donné, ils doivent pouvoir rentrer chez eux !
  • Étiquettes : nos chefs manipulent de nombreux ingrédients et recettes et doivent pouvoir suivre l'utilisation par plat ou par client ; c'est le rôle des étiquettes dans les Clusters, elles permettent de spécifier des labels pour interroger ultérieurement les temps d'utilisation et les coûts. Fonctionnalité très utile pour l'analyse des métadonnées.

Pourquoi l'évolutivité est importante

L'avantage du cloud est que vous n'avez pas à acheter ces « chefs ». Vous les louez à la seconde. Si vous avez une tâche massive à terminer en 5 minutes, vous pouvez engager 100 chefs (nœuds), terminer le travail, puis les « licencier » immédiatement afin d'arrêter de payer. C'est le cœur de l'efficacité de Databricks.

1. Dans notre analogie de la cuisine, que représente la RAM (mémoire) ?

2. Quel est le rôle du « nœud pilote » dans un cluster Databricks ?

3. Pourquoi un étudiant choisirait-il un cluster « Single Node » pour s'entraîner ?

question mark

Dans notre analogie de la cuisine, que représente la RAM (mémoire) ?

Sélectionnez la réponse correcte

question mark

Quel est le rôle du « nœud pilote » dans un cluster Databricks ?

Sélectionnez la réponse correcte

question mark

Pourquoi un étudiant choisirait-il un cluster « Single Node » pour s'entraîner ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 2
some-alt