Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda Componentes Principais do Databricks | Fundamentos do Databricks
Fundamentos do Databricks: Um Guia para Iniciantes

Componentes Principais do Databricks

Deslize para mostrar o menu

Note
Definição

O ecossistema Databricks é construído sobre três pilares principais: o Workspace (seu escritório), o Cluster (seu motor) e o Notebook (sua tela interativa). Compreender como esses três elementos interagem é o segredo para dominar a plataforma.

Agora que você entende a teoria por trás do Lakehouse, é hora de conhecer as ferramentas que usará diariamente. Se você estivesse construindo um carro, precisaria de uma garagem para trabalhar, um motor para movimentá-lo e um painel para controlá-lo. No Databricks, essas funções são desempenhadas pelo Workspace, pelo Cluster e pelo Notebook. Vamos analisar cada um deles para entender como formam um ecossistema de dados unificado.

O Workspace: Seu Centro de Comando Colaborativo

Considere o Workspace como seu prédio de escritório digital. Ao acessar o Databricks, este é o ambiente inicial. Trata-se de uma interface centralizada, baseada em nuvem, onde todos os seus ativos estão armazenados – suas pastas, arquivos, bibliotecas e configurações de segurança.

Antigamente, equipes diferentes trabalhavam em "prédios" distintos. Os engenheiros de dados utilizavam uma ferramenta, os cientistas de dados outra, e os analistas de negócios geralmente ficavam restritos a uma suíte de relatórios separada. O Workspace do Databricks reúne todos sob o mesmo teto.

Dentro do Workspace, você encontrará as seguintes funcionalidades imediatas:

  • A Barra Lateral: sua principal navegação para alternar entre ambientes de ciência de dados, engenharia e SQL, além de links para o Catálogo (onde os dados estão) e o Compute (onde você configura seus clusters);
  • A Tela Principal: é onde o Databricks inicializa qualquer funcionalidade com a qual você esteja trabalhando – desde a configuração de Clusters, passando pelo trabalho em Notebooks e navegação pelo Catálogo, tudo aparece aqui;
  • A Função de Busca: disponível no topo da tela, uma maneira de acessar seu trabalho diretamente, assim como você faz no seu laptop, mas acessível para toda a sua equipe;
  • Configurações: aqui você pode navegar pelas opções disponíveis para sua conta, assim como onde os administradores decidem quem pode visualizar quais dados, garantindo que informações sensíveis permaneçam protegidas, mas ainda permitindo colaboração. Todas as funcionalidades do Databricks são acessíveis pela Barra Lateral. Isso também vale para as mais básicas que você verá neste capítulo.

O Cluster: A Sala de Máquinas

Se o Workspace é o escritório, o Cluster é a máquina pesada no subsolo que faz todo o trabalho. Como você está lidando com "Big Data", um único computador geralmente não é suficiente para processar as informações.

Um Cluster é um conjunto de "servidores" virtuais na nuvem que trabalham juntos como uma máquina poderosa. Quando você escreve um código para analisar um bilhão de linhas de dados, o Workspace envia esse comando para o Cluster. O Cluster então divide essa tarefa em partes menores, processa essas partes em vários "nós" (computadores individuais) e envia o resultado de volta para você.

Principais pontos sobre Clusters:

  • Escalabilidade: você pode iniciar um cluster pequeno para uma tarefa rápida ou um grande para aprendizado de máquina complexo;
  • Auto-Terminação: um dos melhores recursos do Databricks é que você pode configurar os clusters para "adormecerem" quando não estiverem em uso. Isso gera uma grande economia, pois você só paga pelo "motor" enquanto ele está realmente funcionando;
  • Single-Node vs. Multi-Node: para iniciantes, recomenda-se usar um cluster "Single-Node" – um computador – para economizar enquanto aprende o básico.

O Notebook: Sua Tela Criativa

Por fim, temos o Notebook, onde você passará 90% do seu tempo. Se você já utilizou Jupyter Notebooks ou Google Colab, este ambiente será muito familiar. Caso contrário, pense nele como um "Documento Inteligente".

Um Notebook permite combinar três elementos em um só lugar:

  • Código ao Vivo: possibilidade de escrever e executar Python, SQL, R ou Scala;
  • Visualizações: em vez de ver apenas uma tabela de números, é possível gerar gráficos e diagramas instantaneamente com um único comando;
  • Documentação: você pode escrever em "Markdown" (texto formatado) para explicar o que seu código está fazendo. Isso torna seu trabalho compreensível para outras pessoas, não apenas para máquinas.

A "mágica" dos notebooks do Databricks está em sua flexibilidade. Utilizando os chamados "Comandos Mágicos", é possível escrever Python em uma célula para limpar seus dados e, em seguida, alternar para SQL na próxima célula para consultá-los. Não é necessário escolher apenas uma linguagem; você utiliza a melhor ferramenta para cada tarefa específica.

Como Eles Funcionam Juntos

Vamos analisar um cenário real para entender a harmonia entre esses três componentes. Imagine que você é um analista em uma empresa global de viagens. Você acessa o Workspace para encontrar a pasta "Monthly Sales". Cria um novo Notebook dentro dessa pasta e atribui um nome a ele.

No entanto, seu notebook é apenas uma folha em branco até que você o "anexe" a um Cluster. Uma vez anexado, você escreve uma consulta SQL para calcular o preço médio dos bilhetes. O Cluster recebe sua consulta, ativa seus mecanismos, processa milhões de linhas de dados de vendas da nuvem e exibe um belo gráfico de tendências diretamente no seu Notebook. Quando terminar, você compartilha o link desse Notebook com seu gerente, e o Cluster é desligado automaticamente vinte minutos depois para economizar recursos da empresa.

Esse é o ecossistema Databricks: um workspace para colaboração, um cluster para processamento e um notebook para resultados. No próximo capítulo, veremos como tudo isso funciona em diferentes provedores de nuvem como AWS, Azure e Google Cloud.

1. Qual componente é responsável pelo verdadeiro "trabalho pesado" e processamento dos seus dados?

2. O que torna os Notebooks do Databricks "colaborativos"?

3. Por que o recurso "Auto-Termination" em um cluster é importante?

question mark

Qual componente é responsável pelo verdadeiro "trabalho pesado" e processamento dos seus dados?

Selecione a resposta correta

question mark

O que torna os Notebooks do Databricks "colaborativos"?

Selecione a resposta correta

question mark

Por que o recurso "Auto-Termination" em um cluster é importante?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 1. Capítulo 3

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 1. Capítulo 3
some-alt