Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Apprendre Databricks sur le Cloud (AWS, Azure, GCP) | Fondamentaux de Databricks
Fondamentaux de Databricks : Guide du Débutant

Databricks sur le Cloud (AWS, Azure, GCP)

Glissez pour afficher le menu

Note
Définition

Databricks est une plateforme « native du cloud », ce qui signifie qu'elle fonctionne entièrement au sein de l'infrastructure des principaux fournisseurs de cloud tels qu'Amazon Web Services (AWS), Microsoft Azure et Google Cloud Platform (GCP).

L'une des questions les plus fréquentes des débutants est : « Où se trouve exactement Databricks ? » Est-ce un logiciel à installer sur mon ordinateur portable ? Est-ce un site web ? La réponse est que Databricks est une plateforme native du cloud. Elle n'existe pas sur un serveur physique dans vos locaux ; elle réside entièrement dans les vastes infrastructures des plus grands fournisseurs de cloud au monde : AWS, Azure et Google Cloud.

L’avantage « agnostique »

Traditionnellement, apprendre un outil de données signifiait être lié à un écosystème spécifique. Si vous appreniez un outil sur AWS, il pouvait sembler totalement différent sur Azure. Databricks est unique car il est « cloud-agnostique ». Que votre entreprise utilise l’interface bleue d’Azure, l’orange d’AWS ou les icônes colorées de Google, l’expérience Databricks reste presque identique.

C’est un avantage considérable pour votre carrière. Si vous apprenez à gérer des clusters et à écrire des notebooks dans ce cours, ces compétences sont 100 % transférables. Vous apprenez un langage universel de la donnée qui fonctionne quel que soit le fournisseur de cloud préféré d’une entreprise.

Comment Databricks s’intègre au cloud

Considérez un fournisseur de cloud – comme AWS – comme une immense compagnie de services publics qui fournit l’électricité et l’eau à toute une ville. Databricks est comparable à une maison intelligente haut de gamme qui se connecte à ces services pour accomplir des tâches remarquables. Il s’appuie sur le cloud pour trois aspects principaux :

  • Stockage : lorsque vous enregistrez des données dans Databricks, elles sont en réalité stockées dans le système de stockage permanent et économique du fournisseur cloud, tel qu’un bucket AWS S3 ou Azure Data Lake Storage.
  • Calcul : lorsque vous démarrez un Cluster, Databricks contacte le fournisseur cloud et lui demande en quelque sorte : « Prête-moi quatre serveurs virtuels pendant une heure pour exécuter ce calcul ».
  • Sécurité : il utilise la sécurité d’entreprise intégrée du cloud pour garantir que seuls les utilisateurs autorisés peuvent accéder à l’espace de travail.

Pourquoi ne pas simplement utiliser les outils natifs du fournisseur cloud ?

Vous pourriez vous demander : « Si j’utilise déjà Azure, pourquoi ne pas simplement utiliser les outils intégrés d’Azure ? » C’est là que l’efficacité et la simplicité de Databricks prennent tout leur sens. Bien que les fournisseurs cloud proposent leurs propres services, ceux-ci sont souvent fragmentés. Il vous faudrait un outil pour le nettoyage des données, un autre pour le machine learning, et un troisième pour le reporting SQL.

Databricks agit comme une couche unifiée. Il se place au-dessus de tous ces services cloud complexes et vous offre une interface unique et conviviale pour tout gérer. Il s’occupe de la « plomberie » – le réseau, la configuration des serveurs et les mises à jour logicielles – afin que vous puissiez vous concentrer entièrement sur vos données.

Échelle mondiale

Parce que Databricks fonctionne sur ces clouds, il bénéficie de leur présence mondiale. Si votre entreprise a des clients en Europe et en Asie, vous pouvez configurer votre espace de travail Databricks dans ces régions spécifiques. Cela garantit que vos « Clusters » sont physiquement proches de vos données, ce qui accélère considérablement vos requêtes tout en aidant votre entreprise à respecter les lois locales sur la confidentialité des données.

En résumé, le cloud constitue la fondation, mais Databricks est l’outil qui rend cette fondation exploitable pour les professionnels de la donnée.

1. Que signifie le fait que Databricks soit « cloud-agnostique » ?

2. Où vos données sont-elles réellement stockées lorsque vous utilisez Databricks ?

3. Pourquoi les entreprises préfèrent-elles utiliser Databricks plutôt que plusieurs outils cloud fragmentés ?

question mark

Que signifie le fait que Databricks soit « cloud-agnostique » ?

Sélectionnez la réponse correcte

question mark

Où vos données sont-elles réellement stockées lorsque vous utilisez Databricks ?

Sélectionnez la réponse correcte

question mark

Pourquoi les entreprises préfèrent-elles utiliser Databricks plutôt que plusieurs outils cloud fragmentés ?

Sélectionnez la réponse correcte

Tout était clair ?

Comment pouvons-nous l'améliorer ?

Merci pour vos commentaires !

Section 1. Chapitre 4

Demandez à l'IA

expand

Demandez à l'IA

ChatGPT

Posez n'importe quelle question ou essayez l'une des questions suggérées pour commencer notre discussion

Section 1. Chapitre 4
some-alt