Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Esimerkkidatan Tuominen Harjoittelua Varten | Työtilan Käyttöönotto
Databricks Perusteet: Aloittelijan Opas

Esimerkkidatan Tuominen Harjoittelua Varten

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Data Ingestion tarkoittaa prosessia, jossa tuodaan dataa ulkoisista lähteistä Databricks-ympäristöösi. Data Ingestion UI -käyttöliittymän avulla voit muuntaa raakamuotoisen tiedoston, kuten CSV:n, rakenteiseksi taulukoksi Catalogiin vain muutamalla klikkauksella.

Työtila on nyt määritetty ja klusteri käynnissä. Tarvitsemme kuitenkin jotain, jonka kanssa työskennellä. Todellisessa maailmassa data voi tulla esimerkiksi reaaliaikaisista sensoreista tai suurista pilvitietokannoista, mutta useimmat dataprojektit alkavat yksinkertaisella tiedostolla. Tässä luvussa käytät modernia Data Ingestion -ominaisuutta ladataksesi CSV-tiedoston ja muuntaaksesi sen pysyväksi taulukoksi Catalogiin.

Note
Huomio

Databricksissa on useita tapoja tuoda dataa, joista osa on edistyneempiä ja monimutkaisempia kuin toiset (esimerkiksi voit määrittää omat päätepisteesi pilvipalveluntarjoajallesi tai yhdistää kolmannen osapuolen sovelluksiin). Tässä luvussa tutustutaan perusvaihtoehtoon: datan lataaminen omalta tietokoneelta, jotta pääset alkuun.

Datan tuonnin työkalun löytäminen

Työkalun voi löytää kahdella nopealla tavalla:

  • Napsauta sivupalkin yläosassa olevaa "New"-painiketta ja valitse "File Upload".
  • Vaihtoehtoisesti siirry Catalog-välilehdelle ja napsauta "Create Table" -painiketta (usein plus-merkillä esitetty).

Vaihe 2: Tiedoston lataaminen

Kun olet latausnäkymässä, voit vetää ja pudottaa tiedoston tai selata tietokonettasi.

  • Tilanne: tässä harjoituksessa käytetään esimerkkitiedostoa nimeltä diamonds.csv;
  • Lataus: kun tiedosto on ladattu, Databricks tallentaa sen väliaikaisesti "staging"-alueelle ennen kuin se siirretään Catalogiin.

Vaihe 3: Taulun määrittäminen (Esikatselu)

Tässä vaiheessa tapahtuu varsinainen "taika". Databricks näyttää esikatselun datastasi.

  • Catalog and Schema: sinun tulee valita, mihin taulu tallennetaan. Tässä vaiheessa käytetään workspace-katalogia ja default-skeemaa;
  • Table Name: anna taululle selkeä nimi, esimerkiksi diamonds;
  • Data Types: Tarkastele sarakkeita. Databricks arvaa automaattisesti, onko sarake "String" (teksti), "Integer" (numero) vai "Timestamp" (päivämäärä). Jos arvaus on väärä, voit muuttaa tietotyypin manuaalisesti käyttöliittymässä.

Vaihe 4: Taulun luominen

Napsauta Create Table. Databricks käynnistää nyt pienen taustatyön (käyttäen klusteriasi) lukeakseen CSV-tiedoston ja kirjoittaakseen sen suorituskykyiseksi Delta Table -taulukoksi. Kun prosessi on valmis, sinut ohjataan Table UI -näkymään, jossa voit tarkastella skeemaa, esimerkkidataa ja nähdä, kenellä on oikeus tarkastella sitä.

Onnittelut! Olet onnistuneesti siirtänyt dataa omalta tietokoneeltasi pilvipohjaiseen Lakehouse-ympäristöön.

1. Kun lataat CSV-tiedoston Data Ingestion UI:n avulla, miksi Databricks muuntaa tämän tiedoston?

2. Miksi "Preview"-vaihe on tärkeä datan tuontiprosessin aikana?

3. Jos haluat löytää myöhemmin juuri luomasi taulun, minkä sivupalkin välilehden tulisi avata?

question mark

Kun lataat CSV-tiedoston Data Ingestion UI:n avulla, miksi Databricks muuntaa tämän tiedoston?

Valitse oikea vastaus

question mark

Miksi "Preview"-vaihe on tärkeä datan tuontiprosessin aikana?

Valitse oikea vastaus

question mark

Jos haluat löytää myöhemmin juuri luomasi taulun, minkä sivupalkin välilehden tulisi avata?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 2. Luku 6

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 2. Luku 6
some-alt