Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Oppiskele Datan Suodatus ja Valinta SQL:llä | Tietojen Käsittely
Databricks Perusteet: Aloittelijan Opas

Datan Suodatus ja Valinta SQL:llä

Pyyhkäise näyttääksesi valikon

Note
Määritelmä

Temporary View on istuntokohtainen alias DataFramelle, jonka avulla voit käsitellä dataasi käyttämällä tavallista SQL-syntaksia. Se ei siirrä tai monista dataa; se tarjoaa vain SQL-ystävällisen "ikkunan" DataFrameen, joka sijaitsee klusterin muistissa.

Vaikka Python soveltuu erinomaisesti monimutkaisten putkistojen rakentamiseen, monet data-ammattilaiset suosivat SQL:n luettavuutta ja nopeutta datan suodattamiseen ja valintaan. Databricksissä sinun ei tarvitse valita näiden välillä. Voit muuntaa Python DataFramen väliaikaiseksi SQL-taulukoksi ("view") ja aloittaa sen kyselyn välittömästi.

Väliaikaisen näkymän luominen

Ennen kuin voit suorittaa SQL-kyselyn DataFrameen, sinun täytyy antaa sille nimi, jonka SQL-moottori tunnistaa. Tämä onnistuu createOrReplaceTempView-metodilla.

# Create a SQL view named 'diamond_view' from our existing DataFrame
df.createOrReplaceTempView("diamond_view")

"Replace"-osan merkitys tässä komennossa on tärkeä: se varmistaa, että jos suoritat solun uudelleen, näkymä vain päivitetään eikä aiheuta virhettä. Tämä näkymä on olemassa vain nykyisen notebook-istunnon ajan.

Kyselyt %sql-magialla

Nyt kun näkymä on rekisteröity, voit vaihtaa kieltä. Käyttämällä %sql-magic-komentoa uuden solun alussa voit tehdä täsmälleen samat valinnat ja suodatukset kuin Pythonissa, mutta käyttäen standardia SQL-syntaksia.

%sql
SELECT carat, cut, depth
FROM diamond_view
WHERE price > 500

SQL-suodatuksen voima

SQL on erityisen intuitiivinen monimutkaiseen suodatukseen. Voit käyttää IN-operaattoria suodattaaksesi useita arvoja tai LIKE-operaattoria mallinmukaiseen hakuun – tehtäviä, jotka ovat usein monisanaisempia Pythonissa.

%sql
SELECT * FROM diamond_view
WHERE cut IN ('Good', 'Premium')
  AND clarity LIKE '%V%'

Sarakkeiden valitseminen ja nimeäminen aliaksilla

SQL-kielessä sarakkeiden valitseminen ja uudelleennimeäminen onnistuu helposti käyttämällä AS-avainsanaa. Tämä on yleinen käytäntö, jolla raporttien lopullisista otsikoista saadaan ammattimaisemman näköisiä.

%sql
SELECT 
  carat, 
  cut AS Diamond_Quality, 
  price AS Selling_Price
FROM diamond_view

Miksi käyttää väliaikaista näkymää?

Saatat kysyä: "Miksi ei vain kysellä taulua suoraan Catalogista?" Väliaikaisen näkymän etuna on, että voit kysellä DataFramea, jota olet jo osittain puhdistanut tai muokannut Pythonilla. Tämä toimii siltana, jonka avulla voit käyttää Pythonia tietojen käsittelyn "raskaisiin" vaiheisiin ja SQL:ää lopulliseen analyysiin ja visualisointiin.

1. Mikä Python-metodi täytyy suorittaa ennen kuin voit käyttää %sql-komentoa DataFrame:n kyselyyn?

2. Mitä tapahtuu "Temporary View"-näkymälle, kun irrotat muistikirjan klusterista tai lopetat istunnon?

question mark

Mikä Python-metodi täytyy suorittaa ennen kuin voit käyttää %sql-komentoa DataFrame:n kyselyyn?

Valitse oikea vastaus

question mark

Mitä tapahtuu "Temporary View"-näkymälle, kun irrotat muistikirjan klusterista tai lopetat istunnon?

Valitse oikea vastaus

Oliko kaikki selvää?

Miten voimme parantaa sitä?

Kiitos palautteestasi!

Osio 4. Luku 5

Kysy tekoälyä

expand

Kysy tekoälyä

ChatGPT

Kysy mitä tahansa tai kokeile jotakin ehdotetuista kysymyksistä aloittaaksesi keskustelumme

Osio 4. Luku 5
some-alt