Lære Skrive de bearbeidede dataene til en tabell

Sveip for å vise menyen

Definisjon

Å skrive data er prosessen med å flytte en DataFrame fra klyngens midlertidige minne til permanent lagring i Catalog. Ved å bruke saveAsTable()-metoden sikrer du at dine rensede og aggregerte resultater blir bevart og tilgjengelige for andre brukere og verktøy.

Alt du har gjort til nå har vært "i minnet." Hvis du slår av klyngen din nå, vil de transformerte DataFrame-ene dine forsvinne. For å gjøre arbeidet ditt permanent, må du skrive dataene tilbake til Lakehouse. I Databricks er den standard måten å gjøre dette på å lagre DataFrame-en din som en Delta Table.

Syntaks for saveAsTable()

For å lagre arbeidet ditt, kjeder du write-metoden til DataFrame-en din. Den mest direkte tilnærmingen er:

# Save the 'summary_df' we created earlier as a permanent table
summary_df.write.mode("overwrite").saveAsTable("workspace.default.diamonds_summary”)

write: gir tilgang til DataFrame-skrivegrensesnittet;
mode("overwrite"): Angir hva Databricks skal gjøre hvis en tabell med det navnet allerede finnes. "Overwrite" erstatter gamle data med nye. Andre alternativer inkluderer "append" (for å legge til nye rader på slutten av eksisterende tabell);
saveAsTable: angir det tredelte navnet (catalog.schema.table) hvor dataene skal lagres.

Delta Lake: Standardformatet

Når du bruker saveAsTable, lagrer Databricks automatisk dataene i Delta-format. Som nevnt i Seksjon 1, gir Delta Lake pålitelighet. Det sikrer at selv om klyngen krasjer midt i en "write"-operasjon, blir ikke tabellen din ødelagt. Det gir også mulighet for "Time Travel", slik at du kan se tidligere versjoner av tabellen hvis du gjør en feil.

Verifisering av skrivingen i katalogen

Når kommandoen er fullført, bør du kontrollere at dataene har blitt lagret riktig:

Gå til Katalog-fanen i venstre sidemeny;
Naviger til main-katalogen og default-skjemaet;
Se etter det nye tabellnavnet ditt (for eksempel regional_summary);
Du kan klikke på tabellen for å se dens skjema, eksempeldata og metadata, som når den ble opprettet og hvem som opprettet den.

Lese den lagrede tabellen din

Når en tabell er i katalogen, kan enhver autorisert bruker få tilgang til den uten å trenge notatboken din. De kan enkelt kjøre en SQL-spørring eller bruke spark.table() for å laste den inn i sitt eget miljø:

# In a new notebook, anyone can now access your processed data
new_df = spark.table("main.default.regional_summary")

Beste praksis: Rydd opp

Etter at du har lagret de endelige resultatene i en permanent tabell, er det god praksis å avslutte klyngen eller i det minste "Clear State". Siden dataene dine nå er trygt lagret i Catalog, trenger du ikke lenger å beholde de midlertidige DataFrames som opptar plass i klyngens RAM.

1. Hvilken "mode" bør du bruke hvis du vil erstatte en eksisterende tabell med helt nye data fra din DataFrame?

2. Hva er den primære fordelen med å lagre en DataFrame ved å bruke `saveAsTable()`?

Alt var klart?

Takk for tilbakemeldingene dine!

Seksjon 4. Kapittel 8

Spør AI

Spør om hva du vil, eller prøv ett av de foreslåtte spørsmålene for å starte chatten vår