Criando Seu Primeiro Recurso de Computação
Deslize para mostrar o menu
Criar um recurso de computação (Cluster) é o ato de provisionar hardware virtual na nuvem para executar tarefas de dados. Para fins de aprendizado, utilizamos uma configuração de Nó Único para equilibrar desempenho e custo.
É hora de ligar o "motor". Neste capítulo, você acompanhará os passos exatos para criar seu primeiro cluster. Este é o recurso que permitirá executar o código SQL e Python que será desenvolvido posteriormente no curso. Siga estes passos cuidadosamente para garantir que seu ambiente esteja configurado corretamente e de forma econômica.
O Databricks permite criar clusters mais especializados, como o job compute, que é mais adequado para fluxos de trabalho. Embora o objetivo deste capítulo seja abordar o básico, e portanto você irá explorar a criação de um cluster de uso geral, tudo se aplica também à criação e ao gerenciamento de outras categorias de clusters.
Etapa 1: Acessando o Menu de Computação
Na barra lateral à esquerda, clique no ícone Compute. Isso levará você à página de visão geral de computação. No canto superior direito, clique no botão azul rotulado Create Compute.
Etapa 2: Escolhendo o Tipo de Cluster
Você verá duas opções principais no topo: Multi Node e Single Node.
- Selecione Single Node. Por quê? Clusters multi-node são destinados a dados grandes ou em escala empresarial. Para fins de aprendizado, um cluster Single Node é muito mais econômico (ou até gratuito em algumas edições) e oferece desempenho suficiente para os conjuntos de dados que utilizaremos.
Etapa 3: Nomeação e Runtime
- Nome: atribuição de um nome claro ao cluster, como
Student_Cluster_1; - Versão do Databricks Runtime: este menu suspenso determina a versão do "engine". Procure pela versão mais recente que tenha LTS ao lado. LTS significa "Long Term Support". É a versão mais estável e a mais utilizada por empresas em projetos reais.
Etapa 4: Configuração do "Hardware"
Em Tipo de Nó, será exibida uma lista de máquinas virtuais em nuvem (como Standard_DS3_v2 na Azure ou i3.xlarge na AWS).
- Para este curso, a seleção padrão geralmente é suficiente;
- Certifique-se de que haja pelo menos 15GB de Memória caso pretenda realizar tarefas mais avançadas de ciência de dados posteriormente, mas para SQL e Python básicos, a menor opção disponível costuma ser suficiente.
Etapa 5: A etapa mais importante - Auto-Terminação
Procure a caixa de seleção rotulada "Terminar após ___ minutos de inatividade."
- Defina para 20 minutos;
- Como discutido no capítulo anterior, esta é sua rede de segurança. Se você terminar seu trabalho e fechar o notebook, mas esquecer de desligar o cluster, o Databricks detectará que nenhum código está em execução e desligará automaticamente o "motor" após 20 minutos para interromper a contagem de cobrança.
Etapa 6: Criar e aguardar
Clique em Criar Compute. Você verá um círculo sólido girando ao lado do nome do seu cluster. Normalmente leva de 3 a 5 minutos para o provedor de nuvem "aquecer" os servidores. Quando o círculo se transformar em um check verde ou um status verde "Em execução", seu motor estará pronto para uso!
1. Qual é a maneira correta de acessar o menu para criar um novo recurso de computação (cluster) no Databricks?
2. Ao configurar seu primeiro cluster Databricks para este curso, por que você deve escolher um cluster de Nó Único em vez de um cluster de Múltiplos Nós?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo