Deslize para mostrar o menu

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 6

Pergunte à IA

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Importação de Dados de Amostra para Prática

Definição

Ingestão de Dados é o processo de trazer dados de fontes externas para o seu ambiente Databricks. Utilizando a interface de Ingestão de Dados, é possível transformar um arquivo bruto, como um CSV, em uma tabela estruturada no seu Catálogo com apenas alguns cliques.

O Workspace já está configurado e o Cluster está em execução. Agora, é necessário algum dado para trabalhar. No mundo real, os dados podem vir de sensores de streaming ou de grandes bancos de dados em nuvem, mas a maioria dos projetos de dados começa com um arquivo simples. Neste capítulo, será utilizada a funcionalidade moderna de Ingestão de Dados para fazer upload de um arquivo CSV e transformá-lo em uma tabela permanente no seu Catálogo.

Observação

Existem várias maneiras de ingerir dados no Databricks, algumas mais avançadas e complexas do que outras (por exemplo, é possível configurar seus próprios endpoints no provedor de nuvem ou conectar com aplicativos de terceiros). Neste capítulo, será explorada a forma mais básica: fazer upload de dados do seu próprio computador, para iniciar o processo.

Acessando a Ingestão de Dados

Existem duas maneiras rápidas de encontrar essa ferramenta:

Clique no botão "New" no topo da barra lateral e selecione "File Upload".
Alternativamente, vá até a guia Catalog e clique no botão "Create Table" (geralmente representado por um sinal de mais).

Etapa 2: Carregando o Arquivo

Quando estiver na interface de upload, é possível arrastar e soltar seu arquivo ou procurar em seu computador.

O Cenário: para este exercício, está sendo utilizado um arquivo de exemplo chamado diamonds.csv;
O Upload: após o envio do arquivo, o Databricks irá armazená-lo temporariamente em uma área de "staging" enquanto prepara a movimentação para o Catalog.

Etapa 3: Configuração da Tabela (Visualização)

É aqui que a "mágica" acontece. O Databricks exibirá uma prévia dos seus dados.

Catálogo e Esquema: é necessário escolher onde a tabela ficará armazenada. Por enquanto, utilize o catálogo workspace e o esquema default;
Nome da Tabela: atribua um nome claro para sua tabela, como diamonds;
Tipos de Dados: observe as colunas. O Databricks identifica automaticamente se uma coluna é "String" (texto), "Integer" (número) ou "Timestamp" (data). Se a identificação estiver incorreta, é possível alterar manualmente o tipo de dado diretamente na interface.

Etapa 4: Criando a Tabela

Clique em Create Table. O Databricks iniciará agora um pequeno trabalho em segundo plano (usando seu cluster) para ler o CSV e gravá-lo como uma Delta Table de alto desempenho. Após a conclusão, você será direcionado para a Table UI, onde poderá visualizar o schema, os dados de exemplo e até mesmo quem tem permissão para visualizá-la.

Parabéns! Você transferiu com sucesso os dados do seu computador pessoal para o Lakehouse nativo da nuvem.

Tudo estava claro?

Obrigado pelo seu feedback!

Seção 2. Capítulo 6

Importação de Dados de Amostra para Prática

Acessando a Ingestão de Dados

Etapa 2: Carregando o Arquivo

Etapa 3: Configuração da Tabela (Visualização)

Etapa 4: Criando a Tabela

1. Quando você faz upload de um arquivo CSV usando a interface de Ingestão de Dados, no que o Databricks transforma esse arquivo?

2. Por que a etapa "Preview" é importante durante o processo de ingestão de dados?

3. Se você quiser encontrar sua tabela recém-criada depois, qual guia lateral deve acessar?

Importação de Dados de Amostra para Prática

Acessando a Ingestão de Dados

Etapa 2: Carregando o Arquivo

Etapa 3: Configuração da Tabela (Visualização)

Etapa 4: Criando a Tabela