Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Lära Import av Exempeldata för Övning | Konfigurera Arbetsytan
Databricks-Grunder: En Nybörjarguide

Import av Exempeldata för Övning

Svep för att visa menyn

Note
Definition

Dataingestering är processen att föra in data från externa källor till din Databricks-miljö. Med hjälp av Data Ingestion UI kan du omvandla en rå fil, som en CSV, till en strukturerad tabell i din Catalog med bara några klick.

Du har nu konfigurerat din arbetsyta och din kluster är igång. Nu behöver vi något att arbeta med. I verkliga projekt kan data komma från strömmande sensorer eller stora molndatabaser, men de flesta dataprojekt börjar med en enkel fil. I detta kapitel kommer du att använda den moderna funktionen Data Ingestion för att ladda upp en CSV-fil och omvandla den till en permanent tabell i din Catalog.

Note
Notering

Det finns olika sätt att importera data i Databricks, vissa mer avancerade och komplicerade än andra (till exempel kan du konfigurera egna endpoints i din molnleverantör eller ansluta till tredjepartsapplikationer). I detta kapitel utforskar vi det mest grundläggande sättet: att ladda upp data från din egen dator för att komma igång.

Åtkomst till dataimport

Det finns två snabba sätt att hitta detta verktyg:

  • Klicka på "Ny"-knappen högst upp i sidofältet och välj "Filuppladdning".
  • Alternativt, gå till fliken Katalog och klicka på "Skapa tabell"-knappen (ofta representerad av ett plustecken).

Steg 2: Ladda upp filen

När du är i uppladdningsgränssnittet kan du dra och släppa din fil eller bläddra på din dator.

  • Scenariot: för denna övning använder vi en exempelfil som heter diamonds.csv;
  • Uppladdningen: när filen har laddats upp lagrar Databricks den tillfälligt i ett "staging"-område medan den förbereds för att flyttas till Katalogen.

Steg 3: Konfigurera tabellen (Förhandsgranskning)

Här sker "magin". Databricks visar en förhandsgranskning av dina data.

  • Catalog and Schema: du måste välja var tabellen ska finnas. För nu använder du katalogen workspace och schemat default;
  • Table Name: ge din tabell ett tydligt namn, till exempel diamonds;
  • Data Types: Titta på kolumnerna. Databricks gissar automatiskt om en kolumn är en "String" (text), en "Integer" (nummer) eller en "Timestamp" (datum). Om den gissar fel kan du manuellt ändra datatypen direkt i gränssnittet.

Steg 4: Skapa tabellen

Klicka på Create Table. Databricks startar nu ett litet bakgrundsjobb (med din kluster) för att läsa CSV-filen och skriva den som en högpresterande Delta Table. När det är klart kommer du till Table UI, där du kan se schemat, exempeldata och även vem som har behörighet att visa den.

Grattis! Du har framgångsrikt flyttat data från din personliga dator till den molnbaserade Lakehouse-miljön.

1. När du laddar upp en CSV-fil med Data Ingestion UI, vad omvandlar Databricks den filen till?

2. Varför är steget "Preview" viktigt under dataingesteringsprocessen?

3. Om du vill hitta din nyligen skapade tabell senare, vilken sidopanel-flik ska du besöka?

question mark

När du laddar upp en CSV-fil med Data Ingestion UI, vad omvandlar Databricks den filen till?

Vänligen välj det korrekta svaret

question mark

Varför är steget "Preview" viktigt under dataingesteringsprocessen?

Vänligen välj det korrekta svaret

question mark

Om du vill hitta din nyligen skapade tabell senare, vilken sidopanel-flik ska du besöka?

Vänligen välj det korrekta svaret

Var allt tydligt?

Hur kan vi förbättra det?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 6

Fråga AI

expand

Fråga AI

ChatGPT

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Avsnitt 2. Kapitel 6
some-alt