Apprendre Le Problème des Tables de Données Traditionnelles

Glissez pour afficher le menu

Définition

Les tables de données traditionnelles stockées sous forme de fichiers bruts (comme CSV ou Parquet) sont « non gérées ». Elles ne disposent pas des garde-fous nécessaires pour éviter la corruption des données, gérer les utilisateurs simultanés ou annuler les erreurs, ce qui conduit souvent à ce que l’on appelle un « Data Swamp » (marais de données).

1. Absence d’atomicité (écritures partielles)

Imaginez que votre cluster soit en train d’écrire 50 000 nouveaux enregistrements de diamants dans un fichier lorsque l’alimentation est coupée ou que le réseau tombe en panne.

Résultat : Vous vous retrouvez avec un fichier « corrompu ». La moitié des données est présente, l’autre moitié manque, et votre analyse est désormais définitivement erronée. Les fichiers traditionnels n’appliquent pas la règle du « tout ou rien ».

2. Absence de contrôle du schéma

Dans une configuration traditionnelle, rien n’empêche un utilisateur de télécharger accidentellement un enregistrement de diamant où le « Price » est un texte (comme « Expensive ») au lieu d’un nombre.

Résultat : La prochaine fois que vous essayez d’effectuer une somme ou une moyenne, tout votre pipeline plante car le « calcul » ne peut pas traiter le texte. Les fichiers bruts sont des « échecs silencieux » — ils acceptent les mauvaises données sans signaler d’erreur.

3. Le problème des « deux cuisiniers » (concurrence)

Que se passe-t-il si deux ingénieurs de données différents essaient de mettre à jour la table Diamonds exactement à la même seconde ?

Résultat : Les modifications de l'une des personnes écraseront probablement celles de l'autre, ou le fichier deviendra verrouillé et inutilisable. Les systèmes de fichiers traditionnels ne sont pas conçus pour que plusieurs personnes lisent et écrivent simultanément sur les mêmes données.

4. L'absence de bouton « Annuler »

Si vous exécutez accidentellement une commande qui supprime tous les diamants de coupe « Premium » de votre ensemble de données, ces données sont perdues. Dans un système de fichiers standard, il n'existe pas de « bouton d'historique » ou « Annuler » intégré pour voir à quoi ressemblait la table il y a cinq minutes.

L'évolution : pourquoi avons-nous besoin de Delta Lake

Ces problèmes expliquent pourquoi les entreprises abandonnent les Data Lakes (simples dossiers de fichiers) au profit du Lakehouse.

Pour résoudre ces problèmes, Databricks a créé Delta Lake. Il ajoute un « journal des transactions » à vos fichiers — agissant comme un comptable sophistiqué qui :

Suit chaque modification ;
Garantit qu'aucune donnée incorrecte n'est intégrée ;
Permet de « remonter dans le temps » vers des versions précédentes en cas d'erreur.

1. Qu'est-ce qu'une « écriture partielle » ou une « corruption de données » dans un système de données traditionnel ?

2. Pourquoi « l'application du schéma » est-elle importante pour un ensemble de données comme notre table Diamonds ?

Tout était clair ?

Merci pour vos commentaires !

Section 5. Chapitre 1

Demandez à l'IA

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 5. Chapitre 1