Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende Componentes Clave de Databricks | Fundamentos de Databricks
Fundamentos de Databricks: Guía Para Principiantes

Componentes Clave de Databricks

Desliza para mostrar el menú

Note
Definición

El ecosistema de Databricks se basa en tres pilares fundamentales: el Workspace (tu oficina), el Cluster (tu motor) y el Notebook (tu lienzo interactivo). Comprender cómo interactúan estos tres elementos es la clave para dominar la plataforma.

Ahora que comprendes la teoría detrás de Lakehouse, es momento de conocer las herramientas que utilizarás a diario. Si estuvieras construyendo un coche, necesitarías un garaje para trabajar, un motor para moverlo y un tablero para controlarlo. En Databricks, esos roles los cumplen el Workspace, el Cluster y el Notebook. Analicemos cada uno para ver cómo forman un ecosistema de datos unificado.

El Workspace: Centro de mando colaborativo

Imagina el Workspace como tu edificio de oficinas digital. Cuando inicias sesión en Databricks, este es el entorno en el que aterrizas. Es una interfaz centralizada basada en la nube donde residen todos tus recursos: tus carpetas, tus archivos, tus bibliotecas y tus configuraciones de seguridad.

En el pasado, diferentes equipos trabajaban en diferentes "edificios". Los ingenieros de datos usaban una herramienta, los científicos de datos otra, y los analistas de negocio a menudo estaban en una suite de reportes separada. El Workspace de Databricks reúne a todos bajo un mismo techo.

Dentro del Espacio de trabajo, encontrarás las siguientes funcionalidades inmediatas:

  • La barra lateral: navegación principal para moverse entre los entornos de ciencia de datos, ingeniería y SQL, así como enlaces al Catálogo (donde residen los datos) y al Cómputo (donde se configuran los clústeres);
  • La pantalla principal: área donde Databricks inicializa cualquier funcionalidad con la que trabajes; desde la configuración de Clústeres, el trabajo en Notebooks y la exploración del Catálogo, todo aparece aquí;
  • La función de búsqueda: disponible en la parte superior de la pantalla, permite acceder directamente a tu trabajo, de manera similar a como lo haces en tu portátil, pero accesible para todo tu equipo;
  • Configuraciones: sección donde puedes explorar las opciones disponibles para tu cuenta, así como el lugar donde los administradores deciden quién puede ver qué datos, garantizando que la información sensible permanezca protegida y permitiendo la colaboración. Todas las funcionalidades de Databricks son accesibles a través de la barra lateral. Esto también aplica para las más básicas que verás en este capítulo.

El clúster: la sala de máquinas

Si el Espacio de trabajo es la oficina, el Clúster es la maquinaria pesada en el sótano que realiza todo el trabajo. Debido a que se trabaja con "Big Data", una sola computadora normalmente no es suficiente para procesar la información.

Un Clúster es un conjunto de "servidores" virtuales en la nube que funcionan juntos como una sola máquina potente. Cuando escribes un fragmento de código para analizar mil millones de filas de datos, el Espacio de trabajo envía ese comando al Clúster. El Clúster divide esa tarea en partes más pequeñas, las procesa en varios "nodos" (computadoras individuales) y te envía el resultado.

Aspectos clave sobre los clústeres:

  • Escalabilidad: puedes iniciar un clúster pequeño para una tarea rápida o uno masivo para aprendizaje automático complejo;
  • Terminación automática: una de las mejores características de Databricks es que puedes configurar los clústeres para que "entren en suspensión" cuando no se estén utilizando. Esto permite ahorrar costos, ya que solo pagas por el "motor" cuando realmente está en funcionamiento;
  • Clúster de nodo único vs. multinodo: para principiantes, se recomienda usar un clúster de "nodo único" —una sola computadora— para ahorrar dinero mientras se aprenden los conceptos básicos.

El Notebook: Tu Lienzo Creativo

Por último, tienes el Notebook, donde pasarás el 90% de tu tiempo. Si alguna vez has usado Jupyter Notebooks o Google Colab, esto te resultará muy familiar. Si no, piensa en él como un "Documento Inteligente".

Un Notebook te permite combinar tres cosas en un solo lugar:

  • Código en vivo: puedes escribir y ejecutar Python, SQL, R o Scala;
  • Visualizaciones: en lugar de ver solo una aburrida tabla de números, puedes generar gráficos y diagramas al instante con un solo comando;
  • Documentación: puedes escribir "Markdown" (texto con formato) para explicar lo que hace tu código. Esto hace que tu trabajo sea legible para otras personas, no solo para las máquinas.

La "magia" de los notebooks de Databricks es su flexibilidad. Usando lo que se llaman "Comandos Mágicos", puedes escribir Python en una celda para limpiar tus datos y luego cambiar a SQL en la siguiente celda para consultarlos. No tienes que elegir un solo lenguaje; usas la mejor herramienta para la tarea específica que tienes entre manos.

Cómo Funcionan Juntos

Veamos un escenario real para observar la armonía entre estos tres componentes. Imagina que eres un analista en una empresa global de viajes. Abres el Workspace para encontrar la carpeta "Monthly Sales". Creas un nuevo Notebook dentro de esa carpeta y le das un nombre.

Sin embargo, tu notebook es solo una hoja de papel hasta que lo "adjuntas" a un Cluster. Una vez adjunto, escribes una consulta SQL para calcular el precio promedio de los boletos. El Cluster recibe tu consulta, pone en marcha sus motores, procesa millones de filas de datos de ventas desde la nube y muestra una hermosa gráfica de tendencias directamente en tu Notebook. Cuando terminas, compartes el enlace de ese Notebook con tu gerente, y el Cluster se apaga automáticamente veinte minutos después para ahorrar dinero a la empresa.

Ese es el ecosistema de Databricks: un workspace para la colaboración, un cluster para la potencia y un notebook para los resultados. En el próximo capítulo, veremos cómo todo esto funciona en diferentes proveedores de la nube como AWS, Azure y Google Cloud.

1. ¿Qué componente es responsable del verdadero "trabajo pesado" y procesamiento de tus datos?

2. ¿Qué hace que los Notebooks de Databricks sean "colaborativos"?

3. ¿Por qué es importante la función de "Terminación automática" en un clúster?

question mark

¿Qué componente es responsable del verdadero "trabajo pesado" y procesamiento de tus datos?

Selecciona la respuesta correcta

question mark

¿Qué hace que los Notebooks de Databricks sean "colaborativos"?

Selecciona la respuesta correcta

question mark

¿Por qué es importante la función de "Terminación automática" en un clúster?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 1. Capítulo 3

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 1. Capítulo 3
some-alt