Databricks i Skyen (AWS, Azure, GCP)
Sveip for å vise menyen
Databricks er en "skybasert" plattform, noe som betyr at den opererer helt innenfor infrastrukturen til store skyleverandører som Amazon Web Services (AWS), Microsoft Azure og Google Cloud Platform (GCP).
Et av de vanligste spørsmålene nybegynnere stiller er: "Hvor befinner egentlig Databricks seg?" Er det programvare jeg installerer på min bærbare PC? Er det et nettsted? Svaret er at Databricks er en skybasert plattform. Den eksisterer ikke på en fysisk server på kontoret ditt; den lever helt og holdent innenfor de enorme infrastrukturene til verdens største skyleverandører: AWS, Azure og Google Cloud.
Den "agnostiske" fordelen
Tradisjonelt betydde det å lære et data-verktøy at du var låst til et spesifikt økosystem. Hvis du lærte et verktøy på AWS, kunne det se og føles helt annerledes ut på Azure. Databricks er unikt fordi det er "sky-agnostisk". Uansett om bedriften din bruker det blå grensesnittet til Azure, det oransje til AWS, eller de fargerike ikonene til Google, forblir Databricks-opplevelsen nesten identisk.
Dette er en stor fordel for karrieren din. Hvis du lærer å administrere klynger og skrive notatbøker i dette kurset, er disse ferdighetene 100 % overførbare. Du lærer et universelt språk for data som fungerer uavhengig av hvilken skyleverandør en bedrift foretrekker.
Hvordan Databricks kobles til skyen
Tenk på en skyleverandør – som AWS – som et stort forsyningsselskap som leverer strøm og vann til en hel by. Databricks er som et avansert, smart hjem som kobler seg til disse forsyningene for å utføre imponerende oppgaver. Det er avhengig av skyen for tre hovedområder:
- Lagring: når du lagrer data i Databricks, lagres det faktisk i skyleverandørens rimelige, permanente lagring, som en AWS S3-bøtte eller Azure Data Lake Storage.
- Databehandling: Når du starter en Cluster, kontakter Databricks skyleverandøren og sier i praksis: "La meg låne fire virtuelle servere i en time for å kjøre denne beregningen".
- Sikkerhet: det benytter skyens innebygde sikkerhetsløsninger for virksomheter for å sikre at kun autoriserte brukere får tilgang til arbeidsområdet.
Hvorfor ikke bare bruke skyleverandørens egne verktøy?
Du lurer kanskje: "Hvis jeg allerede bruker Azure, hvorfor ikke bare bruke Azures innebygde verktøy?" Det er her effektiviteten og enkelheten til Databricks kommer til sin rett. Selv om skyleverandører tilbyr egne tjenester, er de ofte fragmenterte. Du kan trenge ett verktøy for datarensing, et annet for maskinlæring og et tredje for SQL-rapportering.
Databricks fungerer som det samlende laget. Det ligger over alle de komplekse skytjenestene og gir deg ett, brukervennlig grensesnitt for å administrere alt. Det håndterer "rørleggingen" – nettverk, serveroppsett og programvareoppdateringer – slik at du kan fokusere fullt og helt på dataene dine.
Globalt omfang
Fordi Databricks kjører på disse skyene, drar det nytte av deres globale tilstedeværelse. Hvis virksomheten din har kunder i Europa og Asia, kan du opprette Databricks Workspace i disse spesifikke regionene. Dette sikrer at "Clusters" er fysisk nær dataene dine, noe som gjør at spørringene dine kjøres mye raskere og hjelper virksomheten med å overholde lokale personvernlovgivninger.
Kort sagt, skyen er fundamentet, men Databricks er verktøykassen som gjør dette fundamentet brukbart for datafagfolk.
1. Hva betyr det at Databricks er "cloud-agnostisk"?
2. Hvor lagres dataene dine faktisk når du bruker Databricks?
3. Hvorfor foretrekker selskaper å bruke Databricks fremfor flere fragmenterte skyverktøy?
Takk for tilbakemeldingene dine!
Spør AI
Spør AI
Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår