Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Qué es un clúster? | Configuración del Espacio de Trabajo
Fundamentos de Databricks: Guía Para Principiantes

¿Qué es un clúster?

Desliza para mostrar el menú

Note
Definición

En Databricks, Compute (o un Cluster) es un conjunto de recursos informáticos y configuraciones sobre los cuales se ejecutan cargas de trabajo de ingeniería de datos, ciencia de datos y análisis de datos. Se puede considerar como el "motor" que impulsa tus notebooks y consultas.

Antes de hacer clic en "Crear", es importante comprender qué sucede en segundo plano. En la sección anterior, se llamó al Cluster la "Sala de Máquinas". Pero ¿qué significa esto realmente en términos de hardware?

Cuando se utiliza una aplicación estándar como Excel en una laptop, se está limitado por la potencia de esa única computadora. Si se intenta abrir un archivo con 100 millones de filas, es posible que Excel se bloquee porque la "capacidad" de la laptop simplemente no es suficiente. Databricks resuelve esto utilizando Computación Distribuida.

La analogía del restaurante

Para entender cómo funciona un Cluster, imagina la cocina de un restaurante ocupado:

  • El Cluster es todo el personal de cocina;
  • Los Nodos son los chefs individuales;
  • CPU (Unidad Central de Procesamiento) es la velocidad del chef. Un chef con una CPU alta puede picar verduras muy rápido;
  • RAM (Memoria) es el espacio en la encimera del chef. Si un chef tiene una encimera pequeña, solo puede trabajar en un plato pequeño a la vez. Si tiene una encimera grande (Alta RAM), puede disponer todos los ingredientes para un banquete complejo al mismo tiempo.

En un Cluster de Databricks, hay un Nodo Driver (el Chef Principal) que organiza el trabajo, y Nodos Worker (los Chefs de Línea) que realizan el procesamiento real de los datos.

Términos clave que verás en la interfaz

Al crear nuestro clúster, verás algunos términos técnicos:

  • Tipo de trabajador: aquí es donde eliges el "tamaño" de tus chefs. ¿Necesitas un chef con mucho espacio en la encimera (Optimizado para memoria) o un chef increíblemente rápido (Optimizado para cómputo)?
  • Versión de runtime: este es el "Entorno de ejecución" de tu clúster. Contiene la versión de Apache Spark y Python que utilizará tu código. Normalmente, solo querrás seleccionar la última versión "LTS" (Soporte a largo plazo).
  • Nodos: representa la cantidad de chefs en la cocina. Para tareas intensivas de "Big Data", puede ser necesario contar con 10 o 20 trabajadores. Para este curso y el aprendizaje personal, se utilizará frecuentemente el modo de Nodo Único, es decir, un solo chef realizando todo el trabajo, para mantener los costos bajos;
  • Terminación automática: el clúster permite especificar la cantidad de minutos tras los cuales se terminará automáticamente. Esta es una excelente manera de ahorrar costos, ya que incluso un clúster inactivo genera cargos tanto en Databricks como en el proveedor de la nube, por lo que siempre es recomendable establecer esta política. En la analogía, esto correspondería al horario de salida de los chefs al final del día;
  • Etiquetas: los chefs manejan muchos materiales y recetas, y deben poder rastrear el uso por plato o cliente; esto es lo que hacen las etiquetas en los clústeres, permiten especificar etiquetas para consultar posteriormente los tiempos de uso y los costos. Una función muy útil para el análisis de metadatos.

Por qué importa la escalabilidad

La ventaja de la nube es que no tienes que comprar estos "chefs". Los alquilas por segundo. Si tienes un trabajo masivo que debe terminar en 5 minutos, puedes contratar 100 chefs (nodos), terminar el trabajo y luego "despedirlos" inmediatamente para dejar de pagar. Esta es la esencia de la eficiencia de Databricks.

1. En nuestra analogía de la cocina, ¿qué representa la RAM (Memoria)?

2. ¿Cuál es el papel del "Nodo Driver" en un Clúster de Databricks?

3. ¿Por qué un estudiante elegiría un clúster "Single Node" para practicar?

question mark

En nuestra analogía de la cocina, ¿qué representa la RAM (Memoria)?

Selecciona la respuesta correcta

question mark

¿Cuál es el papel del "Nodo Driver" en un Clúster de Databricks?

Selecciona la respuesta correcta

question mark

¿Por qué un estudiante elegiría un clúster "Single Node" para practicar?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 2. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 2. Capítulo 2
some-alt