Databricks i Skyen (AWS, Azure, GCP)
Stryg for at vise menuen
Databricks er en "cloud-native" platform, hvilket betyder, at den fungerer udelukkende inden for infrastrukturen hos de største cloud-udbydere som Amazon Web Services (AWS), Microsoft Azure og Google Cloud Platform (GCP).
Et af de mest almindelige spørgsmål, begyndere stiller, er: "Hvor findes Databricks egentlig?" Er det software, jeg installerer på min bærbare? Er det en hjemmeside? Svaret er, at Databricks er en cloud-native platform. Den eksisterer ikke på en fysisk server på dit kontor; den findes udelukkende inden for de enorme infrastrukturer hos verdens største cloud-udbydere: AWS, Azure og Google Cloud.
Den "Agnostiske" Fordel
Traditionelt betød det at lære et data-værktøj, at man var låst til et bestemt økosystem. Hvis du lærte et værktøj på AWS, kunne det se helt anderledes ud på Azure. Databricks er unik, fordi den er "cloud-agnostisk". Uanset om din virksomhed bruger det blå interface fra Azure, det orange fra AWS eller de farverige ikoner fra Google, forbliver Databricks-oplevelsen næsten identisk.
Dette er en stor fordel for din karriere. Hvis du lærer at administrere clusters og skrive notebooks i dette kursus, er disse færdigheder 100% overførbare. Du lærer et universelt datasprog, der fungerer uanset, hvilken cloud-udbyder en virksomhed foretrækker.
Hvordan Databricks Tilsluttes Skyen
Forestil dig en cloud-udbyder – som AWS – som et stort forsyningsselskab, der leverer elektricitet og vand til en hel by. Databricks er som et avanceret, intelligent hjem, der tilsluttes disse forsyninger for at udføre imponerende opgaver. Det er afhængigt af skyen for tre hovedområder:
- Lagring: når du gemmer data i Databricks, bliver de faktisk lagret i cloud-udbyderens billige, permanente lagring, såsom en AWS S3 bucket eller Azure Data Lake Storage.
- Compute: Når du starter en Cluster, kontakter Databricks cloud-udbyderen og siger reelt, "Lån mig fire virtuelle servere i en time til at køre denne beregning".
- Sikkerhed: det bruger cloudens indbyggede virksomhedssikkerhed for at sikre, at kun autoriserede brugere kan få adgang til arbejdsområdet.
Hvorfor Ikke Bare Bruge Cloud-Udbyderens Egne Værktøjer?
Du tænker måske: "Hvis jeg allerede er på Azure, hvorfor ikke bare bruge Azures indbyggede værktøjer?" Her kommer effektiviteten og enkeltheden ved Databricks til sin ret. Selvom cloud-udbydere tilbyder deres egne individuelle tjenester, er de ofte fragmenterede. Du kan have brug for ét værktøj til datarensning, et andet til maskinlæring og et tredje til SQL-rapportering.
Databricks fungerer som det samlede lag. Det ligger oven på alle de komplekse cloud-tjenester og giver dig én samlet, brugervenlig grænseflade til at administrere dem alle. Det håndterer "rørføringen" – netværk, serveropsætning og softwareopdateringer – så du kan fokusere fuldt ud på dine data.
Global Skala
Fordi Databricks kører på disse skyer, drager det fordel af deres globale tilstedeværelse. Hvis din virksomhed har kunder i Europa og Asien, kan du oprette dit Databricks Workspace i netop disse regioner. Dette sikrer, at dine "Clusters" er fysisk tæt på dine data, hvilket gør dine forespørgsler meget hurtigere og hjælper din virksomhed med at overholde lokale databeskyttelseslove.
Kort sagt er skyen fundamentet, men Databricks er værktøjskassen, der gør det fundament anvendeligt for datamedarbejdere.
1. Hvad betyder det, at Databricks er "cloud-agnostisk"?
2. Hvor er dine data faktisk gemt, når du bruger Databricks?
3. Hvorfor foretrækker virksomheder at bruge Databricks frem for flere fragmenterede cloud-værktøjer?
Tak for dine kommentarer!
Spørg AI
Spørg AI
Spørg om hvad som helst eller prøv et af de foreslåede spørgsmål for at starte vores chat