Desliza para mostrar el menú

Definición

El Data Lakehouse es una arquitectura de datos moderna que combina la rentabilidad y flexibilidad de un Data Lake con el rendimiento, la estructura y la confiabilidad de un Data Warehouse.

Para comprender realmente por qué el Lakehouse representa un avance, es necesario observar la "forma antigua" de hacer las cosas, un sistema con el que muchas empresas aún luchan hoy en día. Durante décadas, el mundo de los datos estuvo dividido en dos islas aisladas que simplemente no hablaban el mismo idioma.

En la primera isla, se encontraba el Data Warehouse. Piénsalo como una biblioteca premium altamente organizada. Todo está en su lugar, catalogado en tablas ordenadas y optimizado para que los usuarios de SQL ejecuten informes. Sin embargo, esta biblioteca es muy costosa de mantener. También es bastante rígida; solo acepta libros de cierto tamaño y forma. Si intentabas ingresar archivos de video sin procesar, flujos desordenados de redes sociales o enormes registros de un sitio web, el Warehouse simplemente no podía manejarlos.

En la segunda isla, las empresas construyeron Data Lakes. Si el Warehouse es una biblioteca, el Lake es un gran "ático" digital o un vasto almacén donde puedes almacenar cualquier tipo de dato sin procesar de manera económica: imágenes, datos de sensores, audio, lo que sea. Aunque eran excelentes para almacenar todo, rápidamente se convirtieron en lo que llamamos "Data Swamps". Debido a la falta de organización o control de calidad, encontrar una información específica era como buscar una aguja en un pajar. Además, eran increíblemente difíciles de consultar usando SQL estándar, lo que los hacía casi inaccesibles para los analistas de negocio tradicionales.

El "caótico" punto intermedio

El mayor problema, sin embargo, no eran solo las dos islas, sino el puente entre ellas. Para llevar los datos del "Lake" al "Warehouse" para su análisis, los ingenieros debían construir complejos y frágiles pipelines conocidos como ETL (Extract, Transform, Load). Esto generaba tres grandes "dolores de cabeza de datos":

Datos obsoletos: cuando los datos se trasladaban, limpiaban y formateaban del lake al warehouse, a menudo tenían horas, días o incluso semanas de antigüedad. En un entorno empresarial moderno, los datos de ayer suelen ser demasiado tarde;
Inconsistencia: a menudo se presentaba el problema de la "versión de la verdad". Un desarrollador de Python trabajando con archivos sin procesar en el Lake podía calcular el margen de beneficio de manera diferente a un analista de SQL que consultaba las tablas procesadas en el Warehouse;
Altos costos: en esencia, se pagaba por almacenar los mismos datos dos veces. Peor aún, se pagaba a ingenieros altamente calificados solo para evitar que el "puente" se rompiera cada vez que cambiaba un formato de datos.

Nota

ETL en Databricks es el proceso de tomar datos sin procesar y desordenados de alguna fuente (una base de datos, una API, archivos cargados), limpiarlos y transformarlos en un formato útil, y luego guardarlos en una tabla Delta donde estarán listos para ser analizados.

Extract — obtener los datos sin procesar desde una fuente
Transform — corregir, filtrar, renombrar columnas, realizar cálculos
Load — guardar el resultado limpio en tu tabla Lakehouse

En Databricks específicamente, esto se realiza con notebooks o canalizaciones automatizadas (Delta Live Tables), y el resultado se almacena en una tabla Delta, con todo el versionado y confiabilidad que esto implica.

Introducción al Lakehouse

Databricks presenta la arquitectura Lakehouse para unir estos dos mundos en un solo continente unificado. Se sitúa directamente sobre tu almacenamiento en la nube de bajo costo, pero añade una capa de gestión fundamental: Delta Lake. Esta capa aporta las "reglas" de una biblioteca a la "escala" de un almacén de datos.

Con un Lakehouse, finalmente obtienes:

Una única fuente de verdad: todos, desde el analista SQL que crea un panel hasta el científico de datos que entrena un modelo de IA, trabajan con los mismos datos al mismo tiempo;
Rendimiento de almacén con presupuesto de lago: obtienes la velocidad y confiabilidad de una base de datos sin el alto costo de un almacén tradicional;
Soporte para todo tipo de datos: ya sea una tabla de ventas estructurada similar a una hoja de Excel o un archivo de video no estructurado, todo reside en un entorno gestionado y seguro.

Por qué esto es el futuro

Al eliminar la necesidad de mover datos de un lado a otro, Databricks permite que los equipos se concentren en los insights en lugar de la infraestructura. Ya no es necesario elegir entre la "flexibilidad" de un lago y la "estructura" de un almacén. Obtienes ambos. Para ti como estudiante, esto significa que una vez que domines el entorno de Databricks, estarás dominando todo el ciclo de vida moderno de los datos, desde el momento en que nacen hasta que se convierten en una decisión empresarial.

¿Todo estuvo claro?

¡Gracias por tus comentarios!

Sección 1. Capítulo 2

Pregunte a AI

Pregunte lo que quiera o pruebe una de las preguntas sugeridas para comenzar nuestra charla

Explicación de la Arquitectura Lakehouse