Svep för att visa menyn

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 6

Fråga AI

Fråga vad du vill eller prova någon av de föreslagna frågorna för att starta vårt samtal

Import av Exempeldata för Övning

Definition

Dataingestering är processen att föra in data från externa källor till din Databricks-miljö. Med hjälp av Data Ingestion UI kan du omvandla en rå fil, som en CSV, till en strukturerad tabell i din Catalog med bara några klick.

Du har nu konfigurerat din arbetsyta och din kluster är igång. Nu behöver vi något att arbeta med. I verkliga projekt kan data komma från strömmande sensorer eller stora molndatabaser, men de flesta dataprojekt börjar med en enkel fil. I detta kapitel kommer du att använda den moderna funktionen Data Ingestion för att ladda upp en CSV-fil och omvandla den till en permanent tabell i din Catalog.

Notering

Det finns olika sätt att importera data i Databricks, vissa mer avancerade och komplicerade än andra (till exempel kan du konfigurera egna endpoints i din molnleverantör eller ansluta till tredjepartsapplikationer). I detta kapitel utforskar vi det mest grundläggande sättet: att ladda upp data från din egen dator för att komma igång.

Åtkomst till dataimport

Det finns två snabba sätt att hitta detta verktyg:

Klicka på "Ny"-knappen högst upp i sidofältet och välj "Filuppladdning".
Alternativt, gå till fliken Katalog och klicka på "Skapa tabell"-knappen (ofta representerad av ett plustecken).

Steg 2: Ladda upp filen

När du är i uppladdningsgränssnittet kan du dra och släppa din fil eller bläddra på din dator.

Scenariot: för denna övning använder vi en exempelfil som heter diamonds.csv;
Uppladdningen: när filen har laddats upp lagrar Databricks den tillfälligt i ett "staging"-område medan den förbereds för att flyttas till Katalogen.

Steg 3: Konfigurera tabellen (Förhandsgranskning)

Här sker "magin". Databricks visar en förhandsgranskning av dina data.

Catalog and Schema: du måste välja var tabellen ska finnas. För nu använder du katalogen workspace och schemat default;
Table Name: ge din tabell ett tydligt namn, till exempel diamonds;
Data Types: Titta på kolumnerna. Databricks gissar automatiskt om en kolumn är en "String" (text), en "Integer" (nummer) eller en "Timestamp" (datum). Om den gissar fel kan du manuellt ändra datatypen direkt i gränssnittet.

Steg 4: Skapa tabellen

Klicka på Create Table. Databricks startar nu ett litet bakgrundsjobb (med din kluster) för att läsa CSV-filen och skriva den som en högpresterande Delta Table. När det är klart kommer du till Table UI, där du kan se schemat, exempeldata och även vem som har behörighet att visa den.

Grattis! Du har framgångsrikt flyttat data från din personliga dator till den molnbaserade Lakehouse-miljön.

Var allt tydligt?

Tack för dina kommentarer!

Avsnitt 2. Kapitel 6

Import av Exempeldata för Övning

Åtkomst till dataimport

Steg 2: Ladda upp filen

Steg 3: Konfigurera tabellen (Förhandsgranskning)

Steg 4: Skapa tabellen

1. När du laddar upp en CSV-fil med Data Ingestion UI, vad omvandlar Databricks den filen till?

2. Varför är steget "Preview" viktigt under dataingesteringsprocessen?

3. Om du vill hitta din nyligen skapade tabell senare, vilken sidopanel-flik ska du besöka?

Import av Exempeldata för Övning

Åtkomst till dataimport

Steg 2: Ladda upp filen

Steg 3: Konfigurera tabellen (Förhandsgranskning)

Steg 4: Skapa tabellen