Notice: This page requires JavaScript to function properly.
Please enable JavaScript in your browser settings or update your browser.
Aprende ¿Qué Es Delta Lake? | Conceptos Fundamentales de Databricks
Fundamentos de Databricks: Guía Para Principiantes

¿Qué Es Delta Lake?

Desliza para mostrar el menú

Note
Definición

Delta Lake es una capa de almacenamiento de código abierto que aporta confiabilidad a los data lakes. Proporciona transacciones ACID, manejo escalable de metadatos y unifica el procesamiento de datos en streaming y por lotes. En Databricks, Delta es el formato predeterminado para todas las tablas.

Si los archivos tradicionales son el problema, Delta Lake es la solución. Cuando guardas tus datos de diamantes como una tabla Delta en workspace.workshop.diamonds, ya no es solo un archivo en un disco: se convierte en una tabla "inteligente".

Delta Lake funciona combinando los archivos de datos estándar (Parquet) con un Registro de Transacciones oculto.

1. Transacciones ACID

Este es el núcleo de la confiabilidad de Delta. ACID significa Atomicidad, Consistencia, Aislamiento y Durabilidad.

En términos sencillos: Las operaciones de datos son "todo o nada". Si estás actualizando 50,000 filas en la tabla diamonds y el clúster falla en la fila 49,999, Delta revierte todo el cambio. Nunca tendrás una tabla medio escrita o corrupta.

2. El registro de transacciones (El "cerebro")

Cada vez que agregas, eliminas o modificas datos en tu tabla diamonds, Delta registra esa acción en un libro mayor central llamado Delta Log.

Cuando ejecutas una consulta, Databricks no escanea todos los archivos en la carpeta; primero revisa el Log para ver qué archivos son válidos y relevantes. Esto hace que la búsqueda entre millones de filas sea increíblemente rápida.

3. Aplicación y evolución de esquemas

Delta Lake actúa como un guardián: estricto y flexible cuando es necesario.

  • Aplicación: si intentas insertar un registro de diamante donde "Price" es una cadena en lugar de un número, Delta rechazará la escritura y generará un error. Esto mantiene tus datos limpios;
  • Evolución: si realmente necesitas agregar una nueva columna (como "Store_Location"), Delta te permite evolucionar el esquema de forma segura sin tener que reescribir todo el conjunto de datos histórico.

4. Versionado y viaje en el tiempo

Debido a que cada cambio se registra en el registro de transacciones, Delta Lake recuerda cómo se veía tu tabla en cada momento de su historia.

Esto se llama viaje en el tiempo. Si accidentalmente eliminas datos de workspace.workshop.diamonds, simplemente puedes indicarle a Databricks que "vea la tabla como existía hace 10 minutos" y restaurar los elementos faltantes.

5. Estándares abiertos

Aunque Databricks creó Delta Lake, es un formato de código abierto. Esto significa que tus datos no están "bloqueados" en un proveedor específico: obtienes el rendimiento de una base de datos de alto nivel con la flexibilidad del almacenamiento en la nube de código abierto.

1. ¿Qué hace el "registro de transacciones" en Delta Lake?

2. ¿Qué sucede si una operación de "escritura" en una tabla Delta falla a mitad de camino?

question mark

¿Qué hace el "registro de transacciones" en Delta Lake?

Selecciona la respuesta correcta

question mark

¿Qué sucede si una operación de "escritura" en una tabla Delta falla a mitad de camino?

Selecciona la respuesta correcta

¿Todo estuvo claro?

¿Cómo podemos mejorarlo?

¡Gracias por tus comentarios!

Sección 5. Capítulo 2

Pregunte a AI

expand

Pregunte a AI

ChatGPT

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Sección 5. Capítulo 2
some-alt