Glissez pour afficher le menu

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Importation de Données d'Exemple pour la Pratique

Définition

L'ingestion de données est le processus consistant à importer des données provenant de sources externes dans votre environnement Databricks. Grâce à l'interface d'ingestion de données, il est possible de transformer un fichier brut, tel qu'un CSV, en une table structurée dans votre catalogue en seulement quelques clics.

Votre espace de travail est configuré et votre cluster est en cours d'exécution. Il nous faut maintenant des données à exploiter. Dans le monde réel, les données peuvent provenir de capteurs en streaming ou de grandes bases de données cloud, mais la plupart des projets de données commencent par un simple fichier. Dans ce chapitre, la fonctionnalité moderne d'ingestion de données sera utilisée pour importer un fichier CSV et le transformer en une table permanente dans votre catalogue.

Remarque

Il existe différentes méthodes pour ingérer des données dans Databricks, certaines plus avancées et complexes que d'autres (par exemple, il est possible de configurer ses propres points de terminaison chez le fournisseur cloud ou de se connecter à des applications tierces). Dans ce chapitre, nous explorons la méthode la plus simple : importer des données depuis votre propre ordinateur, afin de commencer rapidement.

Accès à l'ingestion de données

Deux méthodes rapides pour accéder à cet outil :

Cliquer sur le bouton « Nouveau » en haut de la barre latérale et sélectionner « Téléverser un fichier ».
Ou bien, aller dans l’onglet Catalogue et cliquer sur le bouton « Créer une table » (souvent représenté par un signe plus).

Étape 2 : Téléversement du fichier

Une fois dans l’interface de téléversement, il est possible de glisser-déposer le fichier ou de parcourir l’ordinateur.

Scénario : pour cet exercice, un fichier d’exemple nommé diamonds.csv est utilisé ;
Téléversement : une fois le fichier téléversé, Databricks le stocke temporairement dans une zone de « staging » en attendant son déplacement vers le Catalogue.

Étape 3 : Configuration de la table (Aperçu)

C'est ici que la « magie » opère. Databricks affiche un aperçu de vos données.

Catalogue et schéma : sélection du lieu de stockage de la table. Utilisation du catalogue workspace et du schéma default ;
Nom de la table : attribution d’un nom explicite à la table, par exemple diamonds ;
Types de données : observation des colonnes. Databricks détecte automatiquement si une colonne est de type "String" (texte), "Integer" (nombre) ou "Timestamp" (date). En cas d’erreur de détection, modification manuelle du type de données directement dans l’interface utilisateur.

Étape 4 : Création de la table

Cliquez sur Create Table. Databricks va maintenant lancer une petite tâche en arrière-plan (en utilisant votre cluster) pour lire le fichier CSV et l'enregistrer sous forme de Delta Table haute performance. Une fois terminé, vous serez redirigé vers l'interface Table, où vous pourrez consulter le schéma, les données d'exemple et même voir qui a l'autorisation de la consulter.

Félicitations ! Vous avez réussi à transférer des données de votre ordinateur personnel vers le Lakehouse natif du cloud.

Tout était clair ?

Merci pour vos commentaires !

Section 2. Chapitre 6

Importation de Données d'Exemple pour la Pratique

Accès à l'ingestion de données

Étape 2 : Téléversement du fichier

Étape 3 : Configuration de la table (Aperçu)

Étape 4 : Création de la table

1. Lorsque vous importez un fichier CSV à l'aide de l'interface d'ingestion de données, en quoi Databricks transforme-t-il ce fichier ?

2. Pourquoi l'étape « Aperçu » est-elle importante lors du processus d'ingestion de données ?

3. Si vous souhaitez retrouver votre table nouvellement créée plus tard, quel onglet de la barre latérale devez-vous consulter ?

Importation de Données d'Exemple pour la Pratique

Accès à l'ingestion de données

Étape 2 : Téléversement du fichier

Étape 3 : Configuration de la table (Aperçu)

Étape 4 : Création de la table