Gerenciamento de Arquivos no Workspace
Deslize para mostrar o menu
No Databricks, existe uma distinção clara entre Arquivos do Workspace (seus notebooks e códigos) e Objetos de Dados (suas tabelas e arquivos brutos). O Catálogo é o portal moderno utilizado para gerenciar e descobrir esses objetos de dados.
Uma das primeiras coisas que você precisa aprender é que o Databricks possui "dois lados da casa". Um lado é para o seu trabalho - seus scripts e notebooks. O outro lado é para os dados que você está analisando. Entender onde cada um está localizado evitará muita frustração ao começar a escrever código.
Arquivos do Workspace: Onde seu código está armazenado
Ao clicar na guia Workspace na barra lateral, você está visualizando um sistema de arquivos para sua lógica.
- É aqui que você cria pastas, subpastas e notebooks.
- Também é possível armazenar arquivos que não sejam notebooks, como pequenos scripts Python ou arquivos de requisitos.
- Importante: estes não são "data tables". Não armazene um arquivo CSV de 100GB aqui. Esta área é destinada à sua propriedade intelectual – o código que instrui o Databricks sobre o que fazer.
O Catálogo: Onde seus dados estão armazenados
Para visualizar seus dados, acesse a guia Catálogo. No passado, o Databricks utilizava fortemente o DBFS (Databricks File System). Embora ainda seja possível encontrar referências ao DBFS em documentações antigas, atualmente ele é considerado um método legado.
Hoje, utilizamos o Catálogo (impulsionado pelo Unity Catalog). Isso oferece uma forma estruturada, semelhante ao SQL, para visualizar seus dados:
- Unity Catalogs: agrupamento lógico (por exemplo, production_data ou marketing_data) de esquemas;
- Schemas (ou Bancos de Dados): método para organizar tabelas dentro de um catálogo, além de Volumes (veja abaixo), modelos de ML e funções;
- Tables: linhas e colunas reais que serão consultadas.
Volumes: Manipulação de arquivos brutos
Às vezes, você possui dados que ainda não são uma tabela – como um arquivo CSV bruto ou um arquivo de imagem. Na interface moderna do Databricks, esses arquivos são armazenados em Volumes. Pense em um Volume como uma ponte entre a antiga forma de pensar em "pastas" e a nova abordagem segura baseada em "Catálogo". Você pode navegar por esses volumes diretamente na interface do Catálogo para visualizar seus arquivos brutos antes de carregá-los em tabelas.
Por que essa distinção é importante?
Tudo se resume a Segurança e Desempenho. Ao manter o código no Workspace e os dados no Catálogo, o Databricks permite que administradores concedam permissão para um usuário editar um notebook sem necessariamente dar acesso aos dados sensíveis dentro de uma tabela. Essa "separação de responsabilidades" é o que torna o Databricks uma plataforma de nível empresarial.
1. Se você deseja criar uma nova pasta para organizar seus Notebooks Python, qual aba lateral deve ser utilizada?
2. Qual é a forma moderna e recomendada de gerenciar e descobrir tabelas de dados no Databricks?
3. Qual termo legado pode ser encontrado em documentações antigas do Databricks e que agora está sendo substituído pelo Catálogo e Volumes?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo