Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprenda O Problema com Tabelas de Dados Tradicionais | Conceitos Fundamentais do Databricks
Fundamentos do Databricks: Um Guia para Iniciantes

O Problema com Tabelas de Dados Tradicionais

Deslize para mostrar o menu

Note
Definição

Tabelas de dados tradicionais armazenadas como arquivos brutos (como CSV ou Parquet) são "não gerenciadas". Elas não possuem mecanismos de proteção necessários para evitar corrupção de dados, lidar com usuários simultâneos ou desfazer erros, levando ao que frequentemente é chamado de "Pântano de Dados".

1. Falta de Atomicidade (Gravações Parciais)

Imagine que seu cluster está no meio do processo de gravação de 50.000 novos registros de diamantes em um arquivo quando ocorre uma queda de energia ou falha de rede.

O Resultado: Você acaba com um arquivo "corrompido". Metade dos dados está presente, metade está faltando, e sua análise agora está permanentemente incorreta. Arquivos tradicionais não possuem uma regra de "tudo ou nada".

2. Ausência de Imposição de Esquema

Em uma configuração tradicional, nada impede que um usuário envie acidentalmente um registro de diamante onde o "Price" seja um texto (como "Expensive") em vez de um número.

O Resultado: Na próxima vez que você tentar executar uma soma ou média, todo o seu pipeline falha porque a "matemática" não consegue lidar com o texto. Arquivos brutos são "falhas silenciosas" — aceitam dados incorretos sem reclamar.

3. O Problema dos "Dois Cozinheiros" (Concorrência)

O que acontece se dois engenheiros de dados diferentes tentarem atualizar a tabela Diamonds exatamente no mesmo segundo?

O Resultado: As alterações de uma pessoa provavelmente irão sobrescrever as da outra, ou o arquivo ficará bloqueado e inutilizável. Sistemas de arquivos tradicionais não são projetados para que várias pessoas leiam e escrevam nos mesmos dados simultaneamente.

4. A Ausência do Botão "Desfazer"

Se um comando for executado acidentalmente e excluir todos os diamantes de corte "Premium" do conjunto de dados, esses dados estarão perdidos. Em um sistema de arquivos padrão, não existe um "histórico" ou botão "desfazer" embutido para visualizar como a tabela estava cinco minutos atrás.

A Evolução: Por Que Precisamos do Delta Lake

Esses problemas explicam por que as empresas deixam de usar Data Lakes (apenas pastas de arquivos) e migram para o Lakehouse.

Para resolver essas questões, a Databricks criou o Delta Lake. Ele adiciona um "log de transações" aos seus arquivos — funcionando como um contador sofisticado que:

  • Registra cada alteração;
  • Garante que dados inválidos não sejam inseridos;
  • Permite "viajar no tempo" para versões anteriores caso ocorra algum erro.

1. O que é "gravação parcial" ou "corrupção de dados" em um sistema de dados tradicional?

2. Por que a "imposição de esquema" é importante para um conjunto de dados como nossa tabela Diamonds?

question mark

O que é "gravação parcial" ou "corrupção de dados" em um sistema de dados tradicional?

Selecione a resposta correta

question mark

Por que a "imposição de esquema" é importante para um conjunto de dados como nossa tabela Diamonds?

Selecione a resposta correta

Tudo estava claro?

Como podemos melhorá-lo?

Obrigado pelo seu feedback!

Seção 5. Capítulo 1

Pergunte à IA

expand

Pergunte à IA

ChatGPT

Pergunte o que quiser ou experimente uma das perguntas sugeridas para iniciar nosso bate-papo

Seção 5. Capítulo 1
some-alt