Escritura y Ejecución de Código SQL
Desliza para mostrar el menú
SQL (Structured Query Language) es el lenguaje estándar de la industria para interactuar con bases de datos relacionales. En Databricks, SQL se utiliza para consultar tablas en el Lakehouse, crear visualizaciones y realizar análisis de datos dentro de los notebooks.
Aunque Python es potente para la ingeniería de datos, SQL sigue siendo el lenguaje más popular para el análisis de datos. Databricks trata a SQL como un lenguaje de primera clase. Incluso si el lenguaje predeterminado de tu notebook está configurado en Python, puedes cambiar fácilmente a SQL para realizar búsquedas rápidas de datos o uniones complejas.
Uso de SQL en un notebook SQL
Si creaste tu notebook con SQL como el lenguaje predeterminado, cada celda que crees será automáticamente una celda SQL. Simplemente escribe tu consulta, como SELECT * FROM table_name, y ejecútala. El resultado se muestra en un formato de tabla limpio e interactivo donde puedes ordenar columnas o buscar valores específicos sin escribir código adicional.
El comando "Magic": %sql
Si se trabaja en un notebook de Python, no es necesario crear un archivo nuevo solo para ejecutar una consulta SQL. Databricks utiliza "Magic Commands" para cambiar de lenguaje al instante. Al escribir %sql al principio de una celda, se indica al clúster que ignore Python y ejecute esa celda específica como código SQL.
%sql
SELECT "Hello from the SQL engine" AS message
Consulta de los datos de ejemplo
En la Sección 2, se cargó un archivo llamado diamonds. Ahora, se puede consultar directamente. En una celda SQL, pruebe el siguiente código:
SELECT
carat,
cut,
price
FROM
workspace.default.diamonds
LIMIT 10
Observa la convención de nombres: catalog.schema.table. Este nombre de tres partes garantiza que estás obteniendo los datos correctos del Catálogo que exploramos anteriormente.
Resultados interactivos y visualizaciones
Cuando una celda SQL termina de ejecutarse, Databricks proporciona un conjunto de resultados interactivo. Debajo de la tabla de resultados, verás un icono "+" seguido de "Visualización". Esto te permite convertir tus resultados SQL en gráficos de barras, líneas o pastel al instante. A diferencia de los entornos SQL tradicionales donde podrías necesitar exportar los datos a Excel para ver un gráfico, Databricks permite construir el análisis y la visualización en el mismo espacio.
Formateo de SQL para mejorar la legibilidad
SQL puede volverse difícil de leer a medida que las consultas aumentan en complejidad. Databricks incluye un formateador de SQL integrado. Se puede encontrar en la barra de herramientas de la celda (a menudo representado por un pequeño icono de "varita mágica" o en el menú "Editar"). Al hacer clic en este, las palabras clave se indentarán automáticamente y las columnas se alinearán, facilitando la revisión del código por parte de los compañeros en el Workspace.
1. Si estás en un notebook de Python y deseas escribir una consulta SQL en una sola celda, ¿qué "Magic Command" debes escribir en la parte superior?
2. ¿Cuál es la forma correcta de referenciar una tabla en Databricks utilizando la convención de nombres de tres partes?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla