Écriture et Exécution de Code Python
Glissez pour afficher le menu
Python est un langage principal dans Databricks utilisé pour la manipulation de données, l'apprentissage automatique et l'automatisation. Les notebooks Databricks offrent un environnement interactif où le code Python est écrit dans des cellules et exécuté sur un cluster connecté.
Maintenant que votre notebook est créé et attaché à un cluster, vous pouvez commencer à écrire et exécuter du code. Comme les notebooks Databricks sont inspirés de Jupyter, l'expérience sera familière si vous avez déjà utilisé d'autres environnements de programmation.
Comprendre les cellules
L'élément de base d'un notebook est la cellule. Vous pouvez avoir autant de cellules que vous le souhaitez dans un seul notebook. Pour créer une nouvelle cellule, survolez le haut ou le bas d'une cellule existante et cliquez sur l'icône "+" à côté de l'option Code ou Texte, afin de créer une cellule de votre choix.
- Entrée : saisie du code Python dans la zone grise ;
- Sortie : après exécution, les résultats (tels que des tables de données, du texte affiché ou des messages d’erreur) apparaissent directement sous cette cellule spécifique.
Exécution du code
Trois méthodes principales permettent d’exécuter une cellule Python dans Databricks :
- Icône Lecture : cliquer sur l’icône « Exécuter la cellule » (triangle) dans le coin supérieur droit de la cellule ;
- Shift + Entrée : exécute la cellule en cours et déplace automatiquement le curseur vers la cellule suivante (ou en crée une nouvelle) ;
- Ctrl + Entrée (Cmd + Entrée sur Mac) : exécute la cellule en cours et garde le curseur à l’intérieur. Utile lors des tests répétés du même bloc de code.
Un exercice Python simple
Vous avez vu comment travailler avec des variables dans la vidéo. Voici un exemple plus intéressant pour vérifier que votre environnement fonctionne : effectuer un calcul simple. Copiez le code suivant dans une cellule :
12345678910# Defining the variables price = 100 quantity = 5 tax_rate = 0.1 # Performing the calculation total_cost = (price * quantity) * (1 + tax_rate) # Printing the result print(f"The total cost of the items is: ${total_cost}")
Lorsque vous exécutez cette cellule, le cluster traite les variables et affiche le texte : The total cost of the items is: $550.0.
Utilisation des variables entre les cellules
Une fonctionnalité clé de Databricks est la persistance de l'état. Cela signifie que si vous définissez une variable dans une cellule, elle reste disponible dans toutes les cellules suivantes de ce notebook tant que le cluster est en cours d'exécution.
Par exemple, si vous créez une nouvelle cellule sous la précédente et tapez simplement print(total_cost), la valeur sera toujours mémorisée comme étant 550.0. Si vous redémarrez le cluster ou "Effacez l'état", vous devrez exécuter à nouveau les cellules depuis le début pour réinitialiser ces variables.
Commentaires et documentation
Dans les cellules Python, toute ligne commençant par un # est un commentaire. Ceux-ci sont ignorés par le cluster mais sont essentiels pour expliquer votre logique à vos collègues. L'utilisation de commentaires permet de maintenir des standards de code professionnels dans l'environnement collaboratif de l'Espace de travail.
1. Quel raccourci clavier permet d'exécuter une cellule et de rester dans cette même cellule ?
2. Que se passe-t-il pour une variable définie dans la Cellule 1 lorsque vous essayez de l'utiliser dans la Cellule 2 ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion