Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lære Hva er Databricks og dataproblemet det løser? | Databricks Grunnleggende
Databricks Grunnleggende: En Nybegynnerguide

Hva er Databricks og dataproblemet det løser?

Sveip for å vise menyen

Note
Definisjon

Kort fortalt er Databricks en samlet, skybasert plattform for dataanalyse. Den er utviklet for å hjelpe dataingeniører, dataforskere og analytikere med å samarbeide i ett og samme arbeidsområde for å behandle, lagre, rense og dele data effektivt.

Hvis du noen gang har jobbet i en bedrift som håndterer store mengder informasjon, har du sannsynligvis sett hvor "rotete" data kan bli. Tradisjonelt har håndtering av denne informasjonen betydd alt fra å sjonglere enkle Excel-ark til å kjøre spørringer mot en mengde ulike databaser på tvers av avdelinger. Mesteparten av dette arbeidet er basert på SQL, som er det vanlige språket for data, eller noen ganger Python for mer avansert analyse.

I dag har de fleste selskaper delt opp dataene sine i to helt forskjellige verdener:

  • Datavarehus: disse inneholder organisert, strukturert data (tenk store samlinger av tabeller, omtrent som en gigantisk Excel-arbeidsbok) som hovedsakelig brukes til forretningsrapporter;
  • Data Lakes: disse lagrer rå, uorganisert data, som bilder, video eller store logger brukt i maskinlæring.

Selv om begge systemene er gode på det de gjør, kommuniserer de ikke særlig godt med hverandre. Dette skaper "datasiloer", hvor informasjon blir fanget på ulike steder. Resultatet er inkonsistente resultater, høye kostnader og mye manuelt arbeid bare for å flytte data rundt. Databricks ble utviklet av de opprinnelige skaperne av Apache Spark for å løse akkurat dette problemet ved å introdusere en ny, samlet arkitektur: Lakehouse.

De viktigste problemene Databricks løser

For å forstå hvorfor Databricks er så populært, må man se på de tre største "hodepinene" det fjerner for datateam:

  • Kompleksitet og vedlikehold: tidligere krevde oppsett av et "big data"-miljø manuell installasjon av servere og kompleks programvare. Databricks er fullt administrert i skyen (AWS, Azure eller GCP). Du kan starte et kraftig cluster av maskiner med bare noen få klikk;
  • Mangel på samarbeid: dataingeniører skriver kode, mens forretningsanalytikere bruker SQL (og Python i mer avanserte tilfeller). Vanligvis jobber de med ulike verktøy. Databricks tilbyr Notebooks, samt en SQL Editor, hvor alle kan jobbe i samme miljø og dele kode og kommentarer i sanntid;
  • Datapålitelighet: rådata er ofte "urene" eller ufullstendige. Databricks bruker Delta Lake-teknologi for å sikre at dataene du leser alltid er av høy kvalitet, pålitelige og "klare for produksjon".

Effektivitet og enkelhet

Mantraet til Databricks er "Enkelhet." I stedet for å administrere maskinvare, fokuserer du på data.

Tenk deg et detaljhandelsselskap som prøver å forutsi salg. Uten Databricks kan de bruke uker på å flytte data fra nettsidelogger til en database bare for å analysere dem. Med Databricks kan de hente inn dataene umiddelbart, rense dem ved hjelp av Python eller SQL i en delt notatbok, og bygge en prediksjonsmodell – alt i samme miljø. Dette forvandler en fragmentert, treg prosess til en strømlinjeformet, høyhastighets "datafabrikk".

Hvorfor det er viktig for din karriere

Etter hvert som selskaper beveger seg bort fra "gamle, rotete systemer", ser de etter fagpersoner som forstår hvordan man arbeider i et Lakehouse-miljø. Enten du er en ambisiøs Data Engineer, Data Scientist eller Data Analyst, blir det å kunne navigere i Databricks-arbeidsområdet en grunnleggende ferdighet i dagens datalandskap.

1. Hva er det primære arkitektoniske konseptet som Databricks bruker for å kombinere Data Lakes og Data Warehouses?

2. Hvilket av følgende er en stor fordel med å bruke Databricks?

question mark

Hva er det primære arkitektoniske konseptet som Databricks bruker for å kombinere Data Lakes og Data Warehouses?

Velg det helt riktige svaret

question mark

Hvilket av følgende er en stor fordel med å bruke Databricks?

Velg det helt riktige svaret

Alt var klart?

Hvordan kan vi forbedre det?

Takk for tilbakemeldingene dine!

Seksjon 1. Kapittel 1

Spør AI

expand

Spør AI

ChatGPT

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår

Seksjon 1. Kapittel 1
some-alt