Pyyhkäise näyttääksesi valikon

Määritelmä

Yhteenvetona Databricks on yhtenäinen, pilvipohjainen data-analytiikka-alusta. Se on suunniteltu auttamaan data-insinöörejä, data-analyytikkoja ja data-tutkijoita työskentelemään yhdessä samassa työtilassa datan käsittelyyn, tallentamiseen, puhdistamiseen ja jakamiseen tehokkaasti.

Jos olet koskaan työskennellyt yrityksessä, jossa käsitellään paljon tietoa, olet todennäköisesti huomannut, kuinka "sekavaksi" data voi muuttua. Perinteisesti tämän tiedon hallinta on tarkoittanut kaikkea yksinkertaisten Excel-taulukoiden pyörittelystä lukuisiin eri tietokantoihin eri osastoilla. Suurin osa tästä työstä perustuu SQL-kieleen, joka on datan yleiskieli, tai joskus Python-ohjelmointiin edistyneemmissä analyyseissä.

Nykyään useimmat yritykset ovat jakaneet datansa kahteen täysin erilaiseen maailmaan:

Tietovarastot (Data Warehouses): sisältävät järjestettyä, rakenteista dataa (ajattele valtavia taulukkojen kokoelmia, kuten jättimäinen Excel-työkirja), joita käytetään pääasiassa liiketoimintaraportointiin;
Data-järvet (Data Lakes): tallentavat raakaa, järjestämätöntä dataa, kuten kuvia, videoita tai suuria lokitiedostoja, joita käytetään koneoppimisessa.

Vaikka molemmat järjestelmät ovat hyviä omassa tarkoituksessaan, ne eivät kommunikoi keskenään kovin hyvin. Tämä luo "data-siiloja", joissa tieto jää loukkuun eri paikkoihin. Se johtaa epäjohdonmukaisiin tuloksiin, korkeisiin kustannuksiin ja runsaaseen manuaaliseen työhön pelkästään datan siirtämiseksi. Databricksin loivat Apache Sparkin alkuperäiset kehittäjät ratkaisemaan juuri tämän ongelman tuomalla uuden, yhtenäisen arkkitehtuurin: Lakehouse.

Databricksin ratkaisemien ydinhaasteiden kuvaus

Ymmärtääkseen, miksi Databricks on niin suosittu, on tarkasteltava kolmea keskeistä "päänsärkyä", jotka se poistaa datatiimeiltä:

Monimutkaisuus ja ylläpito: aiemmin "big data" -ympäristön pystyttäminen vaati palvelimien manuaalista asennusta ja monimutkaista ohjelmistoa. Databricks on täysin hallinnoitu pilvessä (AWS, Azure tai GCP). Voit käynnistää tehokkaan tietokoneklusterin vain muutamalla klikkauksella;
Yhteistyön puute: data-insinöörit kirjoittavat koodia, kun taas liiketoiminta-analyytikot käyttävät SQL:ää (ja Pythonia edistyneemmissä tapauksissa). Yleensä he työskentelevät eri työkaluilla. Databricks tarjoaa Notebookit sekä SQL-editorin, joissa kaikki voivat työskennellä samassa tilassa, jakaa koodia ja kommentteja reaaliajassa;
Datan luotettavuus: raaka data on usein "likaista" tai puutteellista. Databricks hyödyntää Delta Lake -teknologiaa varmistaakseen, että luettava data on aina korkealaatuista, luotettavaa ja "tuotantovalmista".

Tehokkuus ja yksinkertaisuus

Databricksin motto on "Yksinkertaisuus." Laitteiston hallinnan sijaan keskitytään dataan.

Kuvittele vähittäiskauppayritys, joka yrittää ennustaa myyntiä. Ilman Databricksia he saattavat käyttää viikkoja siirtäessään verkkosivuston lokitietoja tietokantaan vain analysoidakseen niitä. Databricksin avulla data voidaan tuoda välittömästi, puhdistaa Pythonilla tai SQL:llä ja rakentaa ennustemalli – kaikki samassa ympäristössä. Hajanaiset ja hitaat prosessit muuttuvat yhtenäiseksi ja nopeaksi "datatehtaaksi".

Miksi tämä on tärkeää urallesi

Yritysten siirtyessä pois "vanhoista sekavista järjestelmistä" he etsivät ammattilaisia, jotka osaavat toimia Lakehouse-ympäristössä. Olitpa sitten tuleva Data Engineer, Data Scientist tai Data Analyst, Databricks-työtilan hallinta on nousemassa keskeiseksi taidoksi modernissa datamaailmassa.

1. Mikä on Databricksin ensisijainen arkkitehtoninen käsite, jolla yhdistetään Data Lakes ja Data Warehouses?

2. Mikä seuraavista on merkittävä hyöty Databricksin käytössä?

Oliko kaikki selvää?

Kiitos palautteestasi!

Osio 1. Luku 1

Kysy tekoälyä