Création de Votre Première Ressource de Calcul
Glissez pour afficher le menu
La création d'une ressource de calcul (Cluster) correspond à la mise à disposition de matériel virtuel dans le cloud pour exécuter vos tâches de données. À des fins d'apprentissage, une configuration à nœud unique est utilisée afin d'équilibrer performance et coût.
Il est temps d'activer le « moteur ». Dans ce chapitre, vous découvrirez étape par étape comment créer votre premier cluster. Cette ressource vous permettra d'exécuter le code SQL et Python que vous écrirez plus tard dans le cours. Suivez attentivement ces étapes pour garantir que votre environnement soit configuré correctement et de manière économique.
Databricks permet de créer des clusters plus spécialisés, tels que le job compute qui est mieux adapté aux workflows. Bien que l'objectif de ce chapitre soit d'aborder les bases, et donc d'explorer la création d'un cluster polyvalent, tout ce qui est présenté s'applique également à la création et à la gestion d'autres catégories de clusters.
Étape 1 : Accéder au menu Compute
Dans la barre latérale gauche, cliquez sur l’icône Compute. Cela vous mènera à la page d’aperçu des ressources de calcul. En haut à droite, cliquez sur le bouton bleu intitulé Create Compute.
Étape 2 : Choix du type de cluster
Deux options principales apparaissent en haut : Multi Node et Single Node.
- Sélectionner Single Node. Pourquoi ? Les clusters multi-nœuds sont destinés aux données volumineuses ou de niveau entreprise. Pour l’apprentissage, un cluster Single Node est beaucoup moins coûteux (voire gratuit dans certaines éditions) et offre suffisamment de puissance pour les jeux de données que nous utiliserons.
Étape 3 : Nom et Runtime
- Nom : attribuer un nom explicite à votre cluster, par exemple
Student_Cluster_1; - Version du Databricks Runtime : ce menu déroulant détermine la version du « moteur ». Sélectionner la version la plus récente comportant la mention LTS. LTS signifie « Long Term Support » (support à long terme). Il s'agit de la version la plus stable, généralement utilisée par les entreprises pour leurs projets en production.
Étape 4 : Configuration du « matériel »
Sous Type de nœud, une liste de machines virtuelles cloud s'affiche (par exemple Standard_DS3_v2 sur Azure ou i3.xlarge sur AWS).
- Pour ce cours, la sélection par défaut convient généralement ;
- Vérifier qu'elle dispose d'au moins 15 Go de mémoire si vous prévoyez d'effectuer des tâches avancées en data science par la suite, mais pour le SQL et Python de base, l'option la plus petite disponible est souvent suffisante.
Étape 5 : L'étape la plus importante - Arrêt automatique
Recherchez la case à cocher intitulée "Arrêter après ___ minutes d'inactivité."
- Réglez cette valeur sur 20 minutes ;
- Comme mentionné dans le chapitre précédent, il s'agit de votre filet de sécurité. Si vous terminez votre travail et fermez votre ordinateur portable sans éteindre votre cluster, Databricks détectera qu'aucun code n'est en cours d'exécution et arrêtera automatiquement le "moteur" après 20 minutes afin d'arrêter la facturation.
Étape 6 : Créer et patienter
Cliquez sur Créer un calcul. Un cercle plein en rotation apparaîtra à côté du nom de votre cluster. Il faut généralement 3 à 5 minutes au fournisseur cloud pour "démarrer" les serveurs. Une fois que le cercle devient une coche verte ou affiche le statut vert "En cours d'exécution", votre moteur est prêt à l'emploi !
1. Quelle est la manière correcte d'accéder au menu pour créer une nouvelle ressource de calcul (cluster) dans Databricks ?
2. Lors de la configuration de votre premier cluster Databricks pour ce cours, pourquoi devriez-vous choisir un cluster à nœud unique plutôt qu'un cluster multi-nœuds ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion