Escrevendo e Executando Código SQL
Deslize para mostrar o menu
SQL (Structured Query Language) é a linguagem padrão da indústria para interagir com bancos de dados relacionais. No Databricks, SQL é utilizado para consultar tabelas no Lakehouse, criar visualizações e realizar análises de dados dentro dos notebooks.
Embora Python seja poderoso para engenharia de dados, SQL continua sendo a linguagem mais popular para análise de dados. O Databricks trata SQL como uma linguagem de primeira classe. Mesmo que o idioma padrão do seu notebook esteja definido como Python, é possível alternar facilmente para SQL para realizar consultas rápidas ou junções complexas.
Utilizando SQL em um Notebook SQL
Se o seu notebook foi criado com SQL como linguagem padrão, toda célula criada será automaticamente uma célula SQL. Basta digitar sua consulta - como SELECT * FROM table_name - e executá-la. O resultado é exibido em um formato de tabela limpo e interativo, onde é possível ordenar colunas ou buscar valores específicos sem escrever código adicional.
O Comando "Magic": %sql
Ao trabalhar em um notebook Python, não é necessário criar um novo arquivo apenas para executar uma consulta SQL. O Databricks utiliza "Comandos Mágicos" para alternar entre linguagens de forma dinâmica. Ao digitar %sql no início de uma célula, você instrui o cluster a ignorar o Python e executar aquela célula como código SQL.
%sql
SELECT "Hello from the SQL engine" AS message
Consultando os Dados de Exemplo
Na Seção 2, foi feito o upload de um arquivo chamado diamonds. Agora, é possível consultá-lo diretamente. Em uma célula SQL, experimente o seguinte código:
SELECT
carat,
cut,
price
FROM
workspace.default.diamonds
LIMIT 10
Observe a convenção de nomenclatura: catalog.schema.table. Esse nome em três partes garante que você está acessando os dados corretos do Catálogo que exploramos anteriormente.
Resultados Interativos e Visualizações
Quando uma célula SQL termina de ser executada, o Databricks fornece um conjunto de resultados interativo. Abaixo da tabela de resultados, você verá um ícone "+" seguido de "Visualização". Isso permite transformar seus resultados SQL em gráficos de barras, linhas ou pizza instantaneamente. Diferente de ambientes SQL tradicionais, onde seria necessário exportar os dados para o Excel para visualizar um gráfico, o Databricks permite construir a análise e a visualização no mesmo espaço.
Formatação de SQL para Legibilidade
SQL pode se tornar difícil de ler à medida que as consultas ficam mais complexas. O Databricks inclui um Formatador de SQL integrado. Você pode encontrá-lo na barra de ferramentas da célula (geralmente representado por um pequeno ícone de "varinha mágica" ou no menu "Editar"). Ao clicar nele, suas palavras-chave serão automaticamente indentadas e suas colunas alinhadas, facilitando a revisão do código por seus colegas no Workspace.
1. Se você está em um notebook Python e deseja escrever uma consulta SQL em uma única célula, qual "Magic Command" deve digitar no topo?
2. Qual é a forma correta de referenciar uma tabela no Databricks usando a convenção de nomenclatura em três partes?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo