Svep för att visa menyn

Definition

Data Lakehouse är en modern dataarkitektur som kombinerar kostnadseffektiviteten och flexibiliteten hos en Data Lake med prestandan, strukturen och tillförlitligheten hos ett Data Warehouse.

För att verkligen förstå varför Lakehouse är ett genombrott behöver du titta på det "gamla sättet" att arbeta – ett system som många företag fortfarande kämpar med idag. I årtionden var dataområdet uppdelat i två isolerade öar som helt enkelt inte talade samma språk.

På den första ön fanns Data Warehouse. Tänk på detta som ett mycket organiserat, exklusivt bibliotek. Allt är på sin plats, katalogiserat i prydliga tabeller och optimerat för SQL-användare att köra rapporter. Men detta bibliotek är mycket dyrt att underhålla. Det är också ganska stelt; det accepterar bara böcker av en viss storlek och form. Om du försökte ta in råa videofiler, röriga sociala medieflöden eller enorma loggar från en webbplats, kunde Warehouse helt enkelt inte hantera dem.

På den andra ön byggde företag Data Lakes. Om Warehouse är ett bibliotek, är Lake en enorm digital "vind" eller ett stort lagergolv där du kan slänga in all rådata billigt – bilder, sensordata, ljud, vad som helst. Även om de var utmärkta för att lagra allt, blev de snabbt det vi kallar "Data Swamps". Eftersom det saknades organisation och kvalitetskontroll var det som att leta efter en nål i en höstack att hitta specifik information. Dessutom var de otroligt svåra att fråga med standard-SQL, vilket gjorde dem nästan otillgängliga för traditionella affärsanalytiker.

Det "röriga" mellanläget

Det största problemet var dock inte bara de två öarna – det var bron mellan dem. För att få data från "Lake" till "Warehouse" för rapportering var ingenjörer tvungna att bygga komplexa, ömtåliga pipelines, kända som ETL (Extract, Transform, Load). Detta ledde till tre stora "datahuvudvärk":

Inaktuell data: när data hade flyttats, rensats och formaterats från lake till warehouse var den ofta timmar, dagar eller till och med veckor gammal. I ett modernt företag är gårdagens data ofta för sent;
Inkonsistens: du fick ofta ett problem med "version av sanningen". En Python-utvecklare som arbetar med råfiler i Lake kan räkna ut vinstmarginalen på ett annat sätt än en SQL-analytiker som tittar på de bearbetade tabellerna i Warehouse;
Höga kostnader: du betalade i princip för att lagra samma data två gånger. Ännu värre, du betalade högt kvalificerade ingenjörer bara för att hålla "bron" från att gå sönder varje gång ett dataformat ändrades.

Notering

ETL i Databricks är processen där rå, ostrukturerad data hämtas från en källa (en databas, ett API, uppladdade filer), rengörs och omformas till ett användbart format, och sedan sparas i en Delta-tabell där den är redo för analys.

Extract — hämta rådata från en källa
Transform — bearbeta, filtrera, byt namn på kolumner, utför beräkningar
Load — spara det rena resultatet i din Lakehouse-tabell

I Databricks görs detta specifikt med notebooks eller automatiserade pipelines (Delta Live Tables), och resultatet hamnar i en Delta-tabell — med all versionshantering och tillförlitlighet som följer med.

Lakehouse-modellen

Databricks introducerar Lakehouse-arkitekturen för att förena dessa två världar till en enhetlig plattform. Den ligger direkt ovanpå din kostnadseffektiva molnlagring, men tillför ett viktigt hanteringslager – kallat Delta Lake. Detta lager ger "reglerna" från ett bibliotek till "skalan" av ett datalager.

Med en Lakehouse får du:

En enda sanningskälla: alla, från SQL-analytikern som bygger en dashboard till Data Scientist som tränar en AI-modell, arbetar med samma data samtidigt;
Databashastighet till sjöpris: du får blixtsnabb prestanda och tillförlitlighet som i en databas, utan den höga kostnaden för ett traditionellt datalager;
Stöd för alla datatyper: oavsett om det är en strukturerad försäljningstabell som liknar ett Excel-ark eller en ostrukturerad videofil, finns allt i en hanterad och säker miljö.

Varför detta är framtiden

Genom att eliminera behovet av att flytta data fram och tillbaka gör Databricks det möjligt för team att fokusera på insikter istället för infrastruktur. Du behöver inte längre välja mellan "flexibiliteten" hos en datalake och "strukturen" hos ett datalager. Du får båda. För dig som lärande innebär detta att när du behärskar Databricks-miljön, behärskar du i princip hela den moderna datalivscykeln – från det ögonblick data skapas till det ögonblick det blir ett affärsbeslut.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 1. Kapitel 2

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Förklaring av Lakehouse-arkitekturen