Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Importation de Données d'Exemple pour la Pratique | Configuration de l'Espace de Travail
Fondamentaux de Databricks : Guide du Débutant

Importation de Données d'Exemple pour la Pratique

Glissez pour afficher le menu

Note
Définition

L'ingestion de données est le processus consistant à importer des données provenant de sources externes dans votre environnement Databricks. Grâce à l'interface d'ingestion de données, il est possible de transformer un fichier brut, tel qu'un CSV, en une table structurée dans votre catalogue en seulement quelques clics.

Votre espace de travail est configuré et votre cluster est en cours d'exécution. Il nous faut maintenant des données à exploiter. Dans le monde réel, les données peuvent provenir de capteurs en streaming ou de grandes bases de données cloud, mais la plupart des projets de données commencent par un simple fichier. Dans ce chapitre, la fonctionnalité moderne d'ingestion de données sera utilisée pour importer un fichier CSV et le transformer en une table permanente dans votre catalogue.

Note
Remarque

Il existe différentes méthodes pour ingérer des données dans Databricks, certaines plus avancées et complexes que d'autres (par exemple, il est possible de configurer ses propres points de terminaison chez le fournisseur cloud ou de se connecter à des applications tierces). Dans ce chapitre, nous explorons la méthode la plus simple : importer des données depuis votre propre ordinateur, afin de commencer rapidement.

Accès à l'ingestion de données

Deux méthodes rapides pour accéder à cet outil :

  • Cliquer sur le bouton « Nouveau » en haut de la barre latérale et sélectionner « Téléverser un fichier ».
  • Ou bien, aller dans l’onglet Catalogue et cliquer sur le bouton « Créer une table » (souvent représenté par un signe plus).

Étape 2 : Téléversement du fichier

Une fois dans l’interface de téléversement, il est possible de glisser-déposer le fichier ou de parcourir l’ordinateur.

  • Scénario : pour cet exercice, un fichier d’exemple nommé diamonds.csv est utilisé ;
  • Téléversement : une fois le fichier téléversé, Databricks le stocke temporairement dans une zone de « staging » en attendant son déplacement vers le Catalogue.

Étape 3 : Configuration de la table (Aperçu)

C'est ici que la « magie » opère. Databricks affiche un aperçu de vos données.

  • Catalogue et schéma : sélection du lieu de stockage de la table. Utilisation du catalogue workspace et du schéma default ;
  • Nom de la table : attribution d’un nom explicite à la table, par exemple diamonds ;
  • Types de données : observation des colonnes. Databricks détecte automatiquement si une colonne est de type "String" (texte), "Integer" (nombre) ou "Timestamp" (date). En cas d’erreur de détection, modification manuelle du type de données directement dans l’interface utilisateur.

Étape 4 : Création de la table

Cliquez sur Create Table. Databricks va maintenant lancer une petite tâche en arrière-plan (en utilisant votre cluster) pour lire le fichier CSV et l'enregistrer sous forme de Delta Table haute performance. Une fois terminé, vous serez redirigé vers l'interface Table, où vous pourrez consulter le schéma, les données d'exemple et même voir qui a l'autorisation de la consulter.

Félicitations ! Vous avez réussi à transférer des données de votre ordinateur personnel vers le Lakehouse natif du cloud.

1. Lorsque vous importez un fichier CSV à l'aide de l'interface d'ingestion de données, en quoi Databricks transforme-t-il ce fichier ?

2. Pourquoi l'étape « Aperçu » est-elle importante lors du processus d'ingestion de données ?

3. Si vous souhaitez retrouver votre table nouvellement créée plus tard, quel onglet de la barre latérale devez-vous consulter ?

question mark

Lorsque vous importez un fichier CSV à l'aide de l'interface d'ingestion de données, en quoi Databricks transforme-t-il ce fichier ?

Sélectionnez la réponse correcte

question mark

Pourquoi l'étape « Aperçu » est-elle importante lors du processus d'ingestion de données ?

Sélectionnez la réponse correcte

question mark

Si vous souhaitez retrouver votre table nouvellement créée plus tard, quel onglet de la barre latérale devez-vous consulter ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 2. Chapitre 6
some-alt