Scrittura ed Esecuzione di Codice SQL
Scorri per mostrare il menu
SQL (Structured Query Language) è il linguaggio standard del settore per interagire con i database relazionali. In Databricks, SQL viene utilizzato per interrogare le tabelle nel Lakehouse, creare visualizzazioni ed eseguire analisi dei dati all'interno dei notebook.
Sebbene Python sia potente per l'ingegneria dei dati, SQL rimane il linguaggio più popolare per l'analisi dei dati. Databricks considera SQL come un linguaggio di prima classe. Anche se la lingua predefinita del notebook è impostata su Python, è possibile passare facilmente a SQL per eseguire rapide ricerche di dati o join complessi.
Utilizzo di SQL in un notebook SQL
Se il notebook è stato creato con SQL come linguaggio predefinito, ogni cella creata sarà automaticamente una cella SQL. Basta digitare la query - ad esempio SELECT * FROM table_name - ed eseguirla. L'output viene visualizzato in un formato tabellare pulito e interattivo, dove è possibile ordinare le colonne o cercare valori specifici senza scrivere codice aggiuntivo.
Il comando "Magic": %sql
Se si lavora in un notebook Python, non è necessario creare un nuovo file solo per eseguire una query SQL. Databricks utilizza i "Magic Commands" per cambiare linguaggio al volo. Digitando %sql all'inizio di una cella, si indica al cluster di ignorare Python ed eseguire quella specifica cella come codice SQL.
%sql
SELECT "Hello from the SQL engine" AS message
Interrogazione dei dati di esempio
Nella Sezione 2, è stato caricato un file chiamato diamonds. Ora è possibile interrogarlo direttamente. In una cella SQL, provare il seguente codice:
SELECT
carat,
cut,
price
FROM
workspace.default.diamonds
LIMIT 10
Nota la convenzione di denominazione: catalog.schema.table. Questo nome composto da tre parti garantisce che tu stia prelevando i dati corretti dal Catalogo che abbiamo esplorato in precedenza.
Risultati interattivi e visualizzazioni
Quando una cella SQL termina l'esecuzione, Databricks fornisce un set di risultati interattivo. Sotto la tabella dei risultati, vedrai un'icona "+" seguita da "Visualizzazione". Questo ti permette di trasformare istantaneamente i risultati SQL in grafici a barre, a linee o a torta. A differenza degli ambienti SQL tradizionali, dove potresti dover esportare i dati in Excel per visualizzare un grafico, Databricks consente di costruire l'analisi e la visualizzazione nello stesso spazio.
Formattazione SQL per la leggibilità
SQL può diventare difficile da leggere man mano che le query aumentano in complessità. Databricks include un formattatore SQL integrato. È possibile trovarlo nella barra degli strumenti della cella (spesso rappresentato da una piccola icona a forma di "bacchetta magica" o sotto il menu "Modifica"). Facendo clic su questa opzione, le parole chiave verranno automaticamente indentate e le colonne allineate, rendendo il codice più facile da revisionare per i colleghi nel Workspace.
1. Se ti trovi in un notebook Python e vuoi scrivere una query SQL in una singola cella, quale "Magic Command" devi digitare all'inizio?
2. Qual è il modo corretto per fare riferimento a una tabella in Databricks utilizzando la convenzione di denominazione a tre parti?
Grazie per i tuoi commenti!
Chieda ad AI
Chieda ad AI
Chieda pure quello che desidera o provi una delle domande suggerite per iniziare la nostra conversazione