Importação de Dados de Amostra para Prática
Deslize para mostrar o menu
Ingestão de Dados é o processo de trazer dados de fontes externas para o seu ambiente Databricks. Utilizando a interface de Ingestão de Dados, é possível transformar um arquivo bruto, como um CSV, em uma tabela estruturada no seu Catálogo com apenas alguns cliques.
O Workspace já está configurado e o Cluster está em execução. Agora, é necessário algum dado para trabalhar. No mundo real, os dados podem vir de sensores de streaming ou de grandes bancos de dados em nuvem, mas a maioria dos projetos de dados começa com um arquivo simples. Neste capítulo, será utilizada a funcionalidade moderna de Ingestão de Dados para fazer upload de um arquivo CSV e transformá-lo em uma tabela permanente no seu Catálogo.
Existem várias maneiras de ingerir dados no Databricks, algumas mais avançadas e complexas do que outras (por exemplo, é possível configurar seus próprios endpoints no provedor de nuvem ou conectar com aplicativos de terceiros). Neste capítulo, será explorada a forma mais básica: fazer upload de dados do seu próprio computador, para iniciar o processo.
Acessando a Ingestão de Dados
Existem duas maneiras rápidas de encontrar essa ferramenta:
- Clique no botão "New" no topo da barra lateral e selecione "File Upload".
- Alternativamente, vá até a guia Catalog e clique no botão "Create Table" (geralmente representado por um sinal de mais).
Etapa 2: Carregando o Arquivo
Quando estiver na interface de upload, é possível arrastar e soltar seu arquivo ou procurar em seu computador.
- O Cenário: para este exercício, está sendo utilizado um arquivo de exemplo chamado
diamonds.csv; - O Upload: após o envio do arquivo, o Databricks irá armazená-lo temporariamente em uma área de "staging" enquanto prepara a movimentação para o Catalog.
Etapa 3: Configuração da Tabela (Visualização)
É aqui que a "mágica" acontece. O Databricks exibirá uma prévia dos seus dados.
- Catálogo e Esquema: é necessário escolher onde a tabela ficará armazenada. Por enquanto, utilize o catálogo
workspacee o esquemadefault; - Nome da Tabela: atribua um nome claro para sua tabela, como
diamonds; - Tipos de Dados: observe as colunas. O Databricks identifica automaticamente se uma coluna é "String" (texto), "Integer" (número) ou "Timestamp" (data). Se a identificação estiver incorreta, é possível alterar manualmente o tipo de dado diretamente na interface.
Etapa 4: Criando a Tabela
Clique em Create Table. O Databricks iniciará agora um pequeno trabalho em segundo plano (usando seu cluster) para ler o CSV e gravá-lo como uma Delta Table de alto desempenho. Após a conclusão, você será direcionado para a Table UI, onde poderá visualizar o schema, os dados de exemplo e até mesmo quem tem permissão para visualizá-la.
Parabéns! Você transferiu com sucesso os dados do seu computador pessoal para o Lakehouse nativo da nuvem.
1. Quando você faz upload de um arquivo CSV usando a interface de Ingestão de Dados, no que o Databricks transforma esse arquivo?
2. Por que a etapa "Preview" é importante durante o processo de ingestão de dados?
3. Se você quiser encontrar sua tabela recém-criada depois, qual guia lateral deve acessar?
Obrigado pelo seu feedback!
Pergunte à IA
Pergunte à IA
Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo