Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Mikä on klusteri? | Työtilan Käyttöönotto
Databricks Perusteet: Aloittelijan Opas

Mikä on klusteri?

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Databricksissa Compute (tai Cluster) tarkoittaa joukkoa laskentaresursseja ja -kokoonpanoja, joilla suoritetaan data engineering-, data science- ja data analytics -työkuormia. Voit ajatella sitä "moottorina", joka pyörittää muistikirjojasi ja kyselyitäsi.

Ennen kuin napsautat "Luo", sinun tulee ymmärtää, mitä taustalla tapahtuu. Edellisessä osiossa kutsuit Clusteria "konehuoneeksi". Mutta mitä se oikeastaan tarkoittaa laitteiston kannalta?

Kun käytät tavallista sovellusta, kuten Exceliä, omalla kannettavallasi, olet rajoitettu kyseisen tietokoneen tehoon. Jos yrität avata tiedoston, jossa on 100 miljoonaa riviä, Excel saattaa kaatua, koska kannettavasi "aivot" eivät yksinkertaisesti riitä. Databricks ratkaisee tämän käyttämällä hajautettua laskentaa.

Ravintolaesimerkki

Jotta ymmärtäisit, miten Cluster toimii, kuvittele kiireinen ravintolan keittiö:

  • Cluster on koko keittiöhenkilökunta;
  • Nodet ovat yksittäisiä kokkeja;
  • CPU (Central Processing Unit) on kokin nopeus. Korkean CPU:n kokki pilkkoo vihannekset erittäin nopeasti;
  • RAM (muisti) on kokin työskentelytila. Jos kokilla on pieni pöytä, hän voi työskennellä vain yhden pienen annoksen parissa kerrallaan. Jos pöytä on suuri (paljon RAM-muistia), hän voi levittää kaikki ainekset suuren juhla-aterian valmistamista varten kerralla.

Databricks Clusterissa on Driver Node (pääkokki), joka organisoi työn, ja Worker Nodet (linjakokit), jotka suorittavat varsinaisen datankäsittelyn.

Keskeiset termit käyttöliittymässä

Kun luot klusterin, näet muutamia teknisiä termejä:

  • Worker Type: tässä valitaan "kokkien koko". Tarvitsetko kokin, jolla on paljon työtilaa (Memory Optimized), vai erittäin nopean kokin (Compute Optimized)?
  • Runtime Version: tämä on klusterin "suoritusaika-ympäristö". Se sisältää Apache Sparkin ja Pythonin version, jota koodisi käyttää. Yleensä kannattaa valita uusin "LTS" (Long Term Support) -versio.
  • Solmut: tämä on keittiösi kokkien määrä. Raskaissa "Big Data" -tehtävissä saatat tarvita 10 tai 20 työntekijää. Tässä kurssissa ja omassa oppimisessasi käytämme usein Single Node -tilaa – eli vain yksi kokki tekee kaiken työn – kustannusten pitämiseksi alhaisina;
  • Automaattinen sammutus: klusterissa voit määrittää ajan minuuteissa, jonka jälkeen klusteri sammuu automaattisesti. Tämä on erinomainen tapa säästää kustannuksissa – myös käyttämätön klusteri laskutetaan sekä Databricksin että pilvipalveluntarjoajan toimesta, joten tämä on hyvä pitää käytäntönä. Vertauksessa tämä vastaa kokkien työpäivän päättymistä – jossain vaiheessa heidänkin tulee päästä kotiin!
  • Tunnisteet: kokit käsittelevät paljon raaka-aineita ja reseptejä, ja heidän tulee pystyä seuraamaan käyttöä annosta tai asiakasta kohden; tätä varten klustereissa käytetään tunnisteita, joiden avulla voit myöhemmin hakea käyttöaikoja ja kustannuksia. Erittäin hyödyllinen ominaisuus metatietojen analysointiin.

Miksi skaalaus on tärkeää

Pilvipalveluiden etuna on, ettei sinun tarvitse ostaa näitä "kokkeja". Voit vuokrata heidät sekunneiksi. Jos sinulla on valtava työ, joka täytyy saada valmiiksi viidessä minuutissa, voit palkata 100 kokkia (solmua), suorittaa työn ja sitten "irtisanoa" heidät heti, jolloin maksaminen loppuu. Tämä on Databricksin tehokkuuden ydin.

1. Keittiövertauksessamme, mitä RAM (muisti) edustaa?

2. Mikä on "Driver Node" -solmun rooli Databricks-klusterissa?

3. Miksi opiskelija valitsisi "Single Node" -klusterin harjoitteluun?

question mark

Keittiövertauksessamme, mitä RAM (muisti) edustaa?

Valitse oikea vastaus

question mark

Mikä on "Driver Node" -solmun rooli Databricks-klusterissa?

Valitse oikea vastaus

question mark

Miksi opiskelija valitsisi "Single Node" -klusterin harjoitteluun?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 2

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 2
some-alt