Datan Suodatus ja Valinta SQL:llä
Pyyhkäise näyttääksesi valikon
Temporary View on istuntokohtainen alias DataFramelle, jonka avulla voit käsitellä dataasi käyttämällä tavallista SQL-syntaksia. Se ei siirrä tai monista dataa; se tarjoaa vain SQL-ystävällisen "ikkunan" DataFrameen, joka sijaitsee klusterin muistissa.
Vaikka Python soveltuu erinomaisesti monimutkaisten putkistojen rakentamiseen, monet data-ammattilaiset suosivat SQL:n luettavuutta ja nopeutta datan suodattamiseen ja valintaan. Databricksissä sinun ei tarvitse valita näiden välillä. Voit muuntaa Python DataFramen väliaikaiseksi SQL-taulukoksi ("view") ja aloittaa sen kyselyn välittömästi.
Väliaikaisen näkymän luominen
Ennen kuin voit suorittaa SQL-kyselyn DataFrameen, sinun täytyy antaa sille nimi, jonka SQL-moottori tunnistaa. Tämä onnistuu createOrReplaceTempView-metodilla.
# Create a SQL view named 'diamond_view' from our existing DataFrame
df.createOrReplaceTempView("diamond_view")
"Replace"-osan merkitys tässä komennossa on tärkeä: se varmistaa, että jos suoritat solun uudelleen, näkymä vain päivitetään eikä aiheuta virhettä. Tämä näkymä on olemassa vain nykyisen notebook-istunnon ajan.
Kyselyt %sql-magialla
Nyt kun näkymä on rekisteröity, voit vaihtaa kieltä. Käyttämällä %sql-magic-komentoa uuden solun alussa voit tehdä täsmälleen samat valinnat ja suodatukset kuin Pythonissa, mutta käyttäen standardia SQL-syntaksia.
%sql
SELECT carat, cut, depth
FROM diamond_view
WHERE price > 500
SQL-suodatuksen voima
SQL on erityisen intuitiivinen monimutkaiseen suodatukseen. Voit käyttää IN-operaattoria suodattaaksesi useita arvoja tai LIKE-operaattoria mallinmukaiseen hakuun – tehtäviä, jotka ovat usein monisanaisempia Pythonissa.
%sql
SELECT * FROM diamond_view
WHERE cut IN ('Good', 'Premium')
AND clarity LIKE '%V%'
Sarakkeiden valitseminen ja nimeäminen aliaksilla
SQL-kielessä sarakkeiden valitseminen ja uudelleennimeäminen onnistuu helposti käyttämällä AS-avainsanaa. Tämä on yleinen käytäntö, jolla raporttien lopullisista otsikoista saadaan ammattimaisemman näköisiä.
%sql
SELECT
carat,
cut AS Diamond_Quality,
price AS Selling_Price
FROM diamond_view
Miksi käyttää väliaikaista näkymää?
Saatat kysyä: "Miksi ei vain kysellä taulua suoraan Catalogista?" Väliaikaisen näkymän etuna on, että voit kysellä DataFramea, jota olet jo osittain puhdistanut tai muokannut Pythonilla. Tämä toimii siltana, jonka avulla voit käyttää Pythonia tietojen käsittelyn "raskaisiin" vaiheisiin ja SQL:ää lopulliseen analyysiin ja visualisointiin.
1. Mikä Python-metodi täytyy suorittaa ennen kuin voit käyttää %sql-komentoa DataFrame:n kyselyyn?
2. Mitä tapahtuu "Temporary View"-näkymälle, kun irrotat muistikirjan klusterista tai lopetat istunnon?
Kiitos palautteestasi!
Kysy tekoälyä
Kysy tekoälyä
Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme