Aprenda Gerenciamento de Arquivos no Workspace

Fundamentos do Databricks: Um Guia para Iniciantes

Deslize para mostrar o menu

Definição

No Databricks, existe uma distinção clara entre Arquivos do Workspace (seus notebooks e códigos) e Objetos de Dados (suas tabelas e arquivos brutos). O Catálogo é o portal moderno utilizado para gerenciar e descobrir esses objetos de dados.

Uma das primeiras coisas que você precisa aprender é que o Databricks possui "dois lados da casa". Um lado é para o seu trabalho - seus scripts e notebooks. O outro lado é para os dados que você está analisando. Entender onde cada um está localizado evitará muita frustração ao começar a escrever código.

Arquivos do Workspace: Onde seu código está armazenado

Ao clicar na guia Workspace na barra lateral, você está visualizando um sistema de arquivos para sua lógica.

É aqui que você cria pastas, subpastas e notebooks.
Também é possível armazenar arquivos que não sejam notebooks, como pequenos scripts Python ou arquivos de requisitos.
Importante: estes não são "data tables". Não armazene um arquivo CSV de 100GB aqui. Esta área é destinada à sua propriedade intelectual – o código que instrui o Databricks sobre o que fazer.

O Catálogo: Onde seus dados estão armazenados

Para visualizar seus dados, acesse a guia Catálogo. No passado, o Databricks utilizava fortemente o DBFS (Databricks File System). Embora ainda seja possível encontrar referências ao DBFS em documentações antigas, atualmente ele é considerado um método legado.

Hoje, utilizamos o Catálogo (impulsionado pelo Unity Catalog). Isso oferece uma forma estruturada, semelhante ao SQL, para visualizar seus dados:

Unity Catalogs: agrupamento lógico (por exemplo, production_data ou marketing_data) de esquemas;
Schemas (ou Bancos de Dados): método para organizar tabelas dentro de um catálogo, além de Volumes (veja abaixo), modelos de ML e funções;
Tables: linhas e colunas reais que serão consultadas.

Volumes: Manipulação de arquivos brutos

Às vezes, você possui dados que ainda não são uma tabela – como um arquivo CSV bruto ou um arquivo de imagem. Na interface moderna do Databricks, esses arquivos são armazenados em Volumes. Pense em um Volume como uma ponte entre a antiga forma de pensar em "pastas" e a nova abordagem segura baseada em "Catálogo". Você pode navegar por esses volumes diretamente na interface do Catálogo para visualizar seus arquivos brutos antes de carregá-los em tabelas.

Por que essa distinção é importante?

Tudo se resume a Segurança e Desempenho. Ao manter o código no Workspace e os dados no Catálogo, o Databricks permite que administradores concedam permissão para um usuário editar um notebook sem necessariamente dar acesso aos dados sensíveis dentro de uma tabela. Essa "separação de responsabilidades" é o que torna o Databricks uma plataforma de nível empresarial.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 5

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 2. Capítulo 5

Gerenciamento de Arquivos no Workspace

Arquivos do Workspace: Onde seu código está armazenado

O Catálogo: Onde seus dados estão armazenados

Volumes: Manipulação de arquivos brutos

Por que essa distinção é importante?

1. Se você deseja criar uma nova pasta para organizar seus Notebooks Python, qual aba lateral deve ser utilizada?

2. Qual é a forma moderna e recomendada de gerenciar e descobrir tabelas de dados no Databricks?

3. Qual termo legado pode ser encontrado em documentações antigas do Databricks e que agora está sendo substituído pelo Catálogo e Volumes?