Creación de Su Primer Recurso de Cómputo
Desliza para mostrar el menú
La creación de un recurso de cómputo (Cluster) consiste en aprovisionar hardware virtual en la nube para ejecutar tareas de datos. Para fines de aprendizaje, se utiliza una configuración de Nodo Único para equilibrar el rendimiento y el costo.
Es momento de encender el "motor". En este capítulo, se presentan los pasos exactos para crear el primer clúster. Este recurso permitirá ejecutar el código SQL y Python que se desarrollará más adelante en el curso. Seguir estos pasos cuidadosamente garantiza que el entorno esté configurado correctamente y de manera rentable.
Databricks permite crear clústeres más especializados, como el job compute, que es más adecuado para flujos de trabajo. Aunque el objetivo de este capítulo es abordar los conceptos básicos y, por lo tanto, se explorará la creación de un clúster de propósito general, todo lo explicado aplica también para la creación y gestión de otras categorías de clústeres.
Paso 1: Acceso al menú de cómputo
En la barra lateral izquierda, haz clic en el icono de Compute. Esto te llevará a la página de vista general de cómputo. En la esquina superior derecha, haz clic en el botón azul etiquetado como Create Compute.
Paso 2: Selección del tipo de clúster
Verás dos opciones principales en la parte superior: Multi Node y Single Node.
- Seleccionar Single Node. ¿Por qué? Los clústeres multi-nodo están destinados a datos empresariales de gran escala. Para el aprendizaje, un clúster Single Node es mucho más económico (o incluso gratuito en algunas ediciones) y proporciona suficiente capacidad para los conjuntos de datos que utilizaremos.
Paso 3: Nombre y Runtime
- Nombre: asignar un nombre claro al clúster, como
Student_Cluster_1; - Versión de Databricks Runtime: este menú desplegable determina la versión del "motor". Buscar la versión más reciente que tenga LTS al lado. LTS significa "Long Term Support". Es la versión más estable y la que la mayoría de las empresas utiliza en proyectos reales.
Paso 4: Configuración del "Hardware"
En Tipo de nodo, se mostrará una lista de máquinas virtuales en la nube (como Standard_DS3_v2 en Azure o i3.xlarge en AWS).
- Para este curso, la selección predeterminada suele ser suficiente;
- Asegurarse de que tenga al menos 15GB de memoria si se planea realizar ciencia de datos avanzada más adelante, pero para SQL y Python básicos, la opción más pequeña disponible suele ser suficiente.
Paso 5: El paso más importante - Terminación automática
Busca la casilla etiquetada como "Terminar después de ___ minutos de inactividad."
- Establece esto en 20 minutos;
- Como se discutió en el capítulo anterior, esta es tu red de seguridad. Si terminas tu trabajo y cierras tu portátil pero olvidas apagar tu clúster, Databricks detectará que no se está ejecutando ningún código y apagará automáticamente el "motor" después de 20 minutos para detener la facturación.
Paso 6: Crear y esperar
Haz clic en Crear recurso de cómputo. Verás un círculo sólido girando junto al nombre de tu clúster. Normalmente toma 3 a 5 minutos para que el proveedor de la nube "caliente" los servidores. Una vez que el círculo se convierta en una marca de verificación verde o un estado verde de "En ejecución", tu motor estará listo para usarse.
1. ¿Cuál es la forma correcta de acceder al menú para crear un nuevo recurso de cómputo (clúster) en Databricks?
2. Al configurar tu primer clúster de Databricks para este curso, ¿por qué deberías elegir un clúster de nodo único en lugar de uno de múltiples nodos?
¡Gracias por tus comentarios!
Pregunte a AI
Pregunte a AI
Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla