Summary  
This chapter explains how to add transactional guarantees—atomic writes, schema enforcement, concurrency control—and historical versioning to tables by maintaining a transaction log.  

General domain of usage  
Data engineering

Tabelas de dados tradicionais armazenadas como arquivos brutos (como CSV ou Parquet) são "não gerenciadas". Elas não possuem mecanismos de proteção necessários para evitar corrupção de dados, lidar com usuários simultâneos ou desfazer erros, levando ao que frequentemente é chamado de "Pântano de Dados".


Definição

## 1. Falta de Atomicidade (Gravações Parciais)

Imagine que seu cluster está no meio do processo de gravação de 50.000 novos registros de diamantes em um arquivo quando ocorre uma queda de energia ou falha de rede.

**O Resultado:** Você acaba com um arquivo "corrompido". Metade dos dados está presente, metade está faltando, e sua análise agora está permanentemente incorreta. Arquivos tradicionais não possuem uma regra de "tudo ou nada".

## 2. Ausência de Imposição de Esquema

Em uma configuração tradicional, nada impede que um usuário envie acidentalmente um registro de diamante onde o "Price" seja um texto (como "Expensive") em vez de um número.

**O Resultado:** Na próxima vez que você tentar executar uma soma ou média, todo o seu pipeline falha porque a "matemática" não consegue lidar com o texto. Arquivos brutos são "falhas silenciosas" — aceitam dados incorretos sem reclamar.

## 3. O Problema dos "Dois Cozinheiros" (Concorrência)

O que acontece se dois engenheiros de dados diferentes tentarem atualizar a tabela Diamonds exatamente no mesmo segundo?

**O Resultado:** As alterações de uma pessoa provavelmente irão sobrescrever as da outra, ou o arquivo ficará bloqueado e inutilizável. Sistemas de arquivos tradicionais não são projetados para que várias pessoas leiam e escrevam nos mesmos dados simultaneamente.

## 4. A Ausência do Botão "Desfazer"

Se um comando for executado acidentalmente e excluir todos os diamantes de corte "Premium" do conjunto de dados, esses dados estarão perdidos. Em um sistema de arquivos padrão, não existe um "histórico" ou botão "desfazer" embutido para visualizar como a tabela estava cinco minutos atrás.

## A Evolução: Por Que Precisamos do Delta Lake

Esses problemas explicam por que as empresas deixam de usar **Data Lakes** (apenas pastas de arquivos) e migram para o **Lakehouse**.

Para resolver essas questões, a Databricks criou o **Delta Lake**. Ele adiciona um "log de transações" aos seus arquivos — funcionando como um contador sofisticado que:

- Registra cada alteração;
- Garante que dados inválidos não sejam inseridos;
- Permite "viajar no tempo" para versões anteriores caso ocorra algum erro.

O que é "gravação parcial" ou "corrupção de dados" em um sistema de dados tradicional?

Por que a "imposição de esquema" é importante para um conjunto de dados como nossa tabela Diamonds?

Uma introdução prática ao Databricks, seus conceitos fundamentais e manipulação de dados na prática utilizando Python e SQL. Este curso é destinado a iniciantes absolutos, com foco em clareza, simplicidade e aplicação no mundo real.

Definir Databricks de forma simples e apresentar termos-chave sem jargões.

Fazer login do usuário e iniciar um ambiente de computação.

Domine o principal ambiente de desenvolvimento utilizando Python e SQL familiares.

Manipulação prática e aplicada de dados utilizando DataFrames (a principal estrutura de dados).

Apresentação do principal diferencial, Delta Lake, de forma simples.

O Problema com Tabelas de Dados Tradicionais

1. Falta de Atomicidade (Gravações Parciais)

2. Ausência de Imposição de Esquema

3. O Problema dos "Dois Cozinheiros" (Concorrência)

4. A Ausência do Botão "Desfazer"

A Evolução: Por Que Precisamos do Delta Lake

1. O que é "gravação parcial" ou "corrupção de dados" em um sistema de dados tradicional?

2. Por que a "imposição de esquema" é importante para um conjunto de dados como nossa tabela Diamonds?