Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Qu'est-ce que Delta Lake ? | Core Databricks Concepts
Fondamentaux de Databricks : Guide du Débutant

Qu'est-ce que Delta Lake ?

Glissez pour afficher le menu

Note
Définition

Delta Lake est une couche de stockage open source qui apporte de la fiabilité aux data lakes. Elle offre des transactions ACID, une gestion évolutive des métadonnées et unifie le traitement des données en streaming et en batch. Dans Databricks, Delta est le format par défaut pour toutes les tables.

Si les fichiers traditionnels posent problème, Delta Lake est la solution. Lorsque vous enregistrez vos données de diamants en tant que table Delta dans workspace.workshop.diamonds, il ne s'agit plus simplement d'un fichier sur un disque — cela devient une table « intelligente ».

Delta Lake fonctionne en combinant les fichiers de données standards (Parquet) avec un journal de transactions caché.

1. Transactions ACID

C'est le cœur de la fiabilité de Delta. ACID signifie Atomicité, Cohérence, Isolation et Durabilité.

En termes simples : Vos opérations de données sont « tout ou rien ». Si vous mettez à jour 50 000 lignes dans la table diamonds et que le cluster échoue à la ligne 49 999, Delta annule l'ensemble du changement. Vous ne vous retrouverez jamais avec une table partiellement écrite ou corrompue.

2. Le journal des transactions (Le « cerveau »)

Chaque fois que vous ajoutez, supprimez ou modifiez des données dans votre table diamonds, Delta enregistre cette action dans un registre central appelé le Delta Log.

Lorsque vous exécutez une requête, Databricks ne parcourt pas simplement chaque fichier du dossier — il consulte d'abord le Log pour vérifier quels fichiers sont valides et pertinents. Cela rend la recherche parmi des millions de lignes extrêmement rapide.

3. Application et évolution du schéma

Delta Lake agit comme un gardien — à la fois strict et flexible lorsque nécessaire.

  • Application : si vous essayez d'insérer un enregistrement de diamant où « Price » est une chaîne de caractères au lieu d'un nombre, Delta refusera l'écriture et générera une erreur. Cela garantit la propreté de vos données ;
  • Évolution : si vous devez légitimement ajouter une nouvelle colonne (comme « Store_Location »), Delta vous permet de faire évoluer le schéma en toute sécurité sans avoir à réécrire l'ensemble de l'historique des données.

4. Gestion des versions et voyage dans le temps

Parce que chaque modification est enregistrée dans le journal des transactions, Delta Lake se souvient de l'apparence de votre table à chaque instant de son historique.

Ceci est appelé voyage dans le temps. Si vous supprimez accidentellement des données de workspace.workshop.diamonds, vous pouvez simplement demander à Databricks de « consulter la table telle qu'elle existait il y a 10 minutes » et restaurer les éléments manquants.

5. Normes ouvertes

Même si Databricks a créé Delta Lake, il s'agit d'un format open-source. Cela signifie que vos données ne sont pas « verrouillées » chez un fournisseur spécifique — vous bénéficiez des performances d'une base de données haut de gamme avec la flexibilité du stockage cloud open-source.

1. Que fait le « journal des transactions » dans Delta Lake ?

2. Que se passe-t-il si une opération « Write » sur une table Delta échoue en cours d'exécution ?

question mark

Que fait le « journal des transactions » dans Delta Lake ?

Sélectionnez la réponse correcte

question mark

Que se passe-t-il si une opération « Write » sur une table Delta échoue en cours d'exécution ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 5. Chapitre 2

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 5. Chapitre 2
some-alt