Prochaines Étapes en Matière de Sécurité
Glissez pour afficher le menu
Unity Catalog est la couche de gouvernance unifiée pour tous les actifs de données et d'IA dans Databricks. Elle offre un point centralisé pour gérer les autorisations, suivre la traçabilité des données et garantir un accès sécurisé à travers différents espaces de travail et environnements cloud.
À mesure que vous vous familiarisez avec la table diamonds dans workspace.workshop.diamonds, il est important de comprendre comment l'accès à ces données est contrôlé. En environnement professionnel, il n'est pas possible de laisser chaque utilisateur supprimer ou modifier les tables à sa guise.
C'est ici qu'intervient Unity Catalog — il agit comme le « gardien de sécurité » de l'ensemble de votre Lakehouse.
1. Contrôle d'accès centralisé
Avant Unity Catalog, la gestion des droits d'accès aux tables était complexe dans les grandes entreprises. Désormais, tout est géré de manière centralisée.
- Privilèges : les administrateurs peuvent accorder des autorisations spécifiques comme
SELECT(lecture seule),MODIFY(peut mettre à jour/supprimer) ouCREATE; - Le concept de « propriétaire » : chaque table possède un propriétaire (généralement la personne qui l'a créée) qui décide des autres utilisateurs autorisés à interagir avec ces données.
2. L'espace de noms en trois parties
Unity Catalog applique la norme de nommage utilisée tout au long de ce cours : Catalog > Schema > Table.
- Catalog : conteneur de haut niveau (par exemple,
workspace) ; - Schema : regroupement de type dossier (par exemple,
workshop) ; - Table : ensemble de données individuel (par exemple,
diamonds).
Cette structure facilite l'organisation des données par département (par exemple, Finance.Quarterly_Reports.Revenue) tout en maintenant des règles de sécurité cohérentes à chaque niveau.
3. Traçabilité des données
L'une des fonctionnalités les plus puissantes d'Unity Catalog est la traçabilité.
- Dans le Catalog Explorer, il est possible de cliquer sur la table diamonds et de visualiser une carte montrant l'origine des données et les notebooks qui l'utilisent actuellement
- Si un nom de colonne est modifié à la source, la traçabilité indique précisément quels rapports en aval seront impactés — évitant ainsi des modifications "cassantes" involontaires
4. Recherche et découverte
Unity Catalog rend les données découvrables. Au lieu de demander à un collègue où se trouve un fichier spécifique, il est possible d'utiliser la barre de recherche en haut de l'interface Databricks.
Comme les données sont enregistrées dans le Catalog, il suffit de rechercher "diamonds" pour trouver instantanément la table, son schéma et toute documentation fournie par le propriétaire.
5. Journaux d'audit
La sécurité implique également la responsabilité. Unity Catalog conserve un enregistrement de qui a accédé à quelles données et quand.
Ceci est essentiel pour les entreprises dans des secteurs réglementés — comme la finance ou la santé — afin de prouver que les données sensibles sont correctement gérées et qu'aucun utilisateur non autorisé ne consulte d'informations privées.
1. Quel est le principal objectif d'Unity Catalog dans Databricks ?
2. Dans l'espace de noms à trois parties (par exemple, workspace.workshop.diamonds), que représente "workshop" ?
Merci pour vos commentaires !
Demandez à l'IA
Demandez à l'IA
Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion