¿Qué es Delta Lake? Una descripción general

Delta Lake es un marco de almacenamiento de datos de código abierto diseñado para optimizar la confiabilidad y el rendimiento del data lake. Aborda algunos de los problemas comunes que enfrentan los data lakes, como la consistencia de los datos, la calidad de los datos y la falta de transaccionalidad. Su objetivo es proporcionar una solución de almacenamiento de datos que pueda manejar cargas de trabajo escalables de big data en un negocio basado en datos.

Orígenes de Delta Lake

Delta Lake fue lanzado por Databricks, una empresa Apache Spark, en 2019 como un formato de tabla en la nube basado en estándares abiertos y parcialmente código abierto para admitir las características solicitadas a menudo de plataformas de datos modernas, como garantías ACID, reescritores simultáneos, mutabilidad de datos y más.

¿Cuál es el propósito o el uso principal de Delta Lake?

Delta Lake se diseñó para respaldar y mejorar el uso de data lakes, que contienen grandes cantidades de datos estructurados y no estructurados.

Los científicos de datos y analistas de datos utilizan conjuntos de datos para manipular y extraer información valiosa de estos conjuntos de datos masivos. Si bien los data lakes han revolucionado la forma en que administramos los datos, también tienen algunas limitaciones, incluida la calidad de los datos, la consistencia de los datos y, la principal, la falta de esquemas aplicados, lo que dificulta la realización del aprendizaje automático y las operaciones de análisis complejas en los datos sin procesar.

En 2021, científicos de datos tanto académicos como tecnológicos argumentaron que, debido a estas limitaciones, los conjuntos de datos pronto serían reemplazados por “lagos”, que son plataformas abiertas que unifican el almacenamiento de datos y el análisis avanzado.

Figura 1: Ejemplo de diseño de sistema de lago de datos del artículo de Michael Armbrust, Ali Ghodsi, Reynold Xin y Matei Zaharia. Delta Lake agrega transacciones, versiones y estructuras de datos auxiliares sobre archivos en un formato abierto y se puede consultar con diversas API y motores.

Delta Lake es una parte importante de cualquier infraestructura de lago al proporcionar una capa de almacenamiento de datos clave.

Delta Lake se define por:

Apertura: Es un ecosistema de integración de rápida expansión impulsado por la comunidad.
Simplicidad: Proporciona un único formato para unificar su ETL, almacenamiento de datos y aprendizaje automático en su lago.
Listo para la producción: Ha sido probado en batalla en más de 10 000 entornos de producción.
Independiente de la plataforma: Puede usarlo con cualquier motor de consultas en cualquier nube, en las instalaciones o localmente.

Delta Lake frente a Data Lake frente a Data Warehouse frente a Data Lakehouse

Un lago Delta se comprende mejor dentro del contexto más amplio del centro de datos, particularmente cómo encaja junto con los lagos de datos, los almacenes de datos y las casas de lagos de datos. Echemos un vistazo más de cerca:

Delta Lake

Delta Lake es una capa de almacenamiento de código abierto que preserva la integridad de sus datos originales sin sacrificar el rendimiento y la agilidad necesarios para las aplicaciones de análisis en tiempo real, inteligencia artificial (AI) y aprendizaje automático (ML).

Lago de datos

Un data lake es un repositorio de datos sin procesar en varios formatos. El volumen y la variedad de información en un data lake pueden dificultar el análisis y comprometer la calidad y confiabilidad de los datos.

Almacenamiento de datos

Un almacenamiento de datos recopila información de varias fuentes, luego la reformatea y la organiza en un gran volumen consolidado de datos estructurados que se optimiza para el análisis y la generación de informes. El software patentado y la incapacidad de almacenar datos no estructurados pueden limitar su utilidad.

Data Lakehouse

Un data lakehouse es una plataforma de datos moderna que combina la flexibilidad y escalabilidad de un data lake con las características de estructura y administración de un almacenamiento de datos en una plataforma simple y abierta.

¿Cómo funciona Delta Lake?

Delta Lake trabaja creando una capa adicional de abstracción entre los datos sin procesar y los motores de procesamiento. Se asienta sobre un data lake y utiliza su sistema de almacenamiento. Divide los datos en lotes y luego agrega transacciones ACID sobre los lotes. Delta Lake también permite la aplicación de esquemas para la validación de datos antes de agregarlos al lago.

Delta Lake almacena datos en formato Parquet y utiliza el Hadoop Distributed File System (HDFS) o Amazon S3 como capa de almacenamiento. La capa de almacenamiento almacena datos en archivos Parquet inmutables, que tienen versiones para permitir la evolución del esquema.

¿Cómo mejora Delta Lake el rendimiento de datos a través de la indexación?

Delta Lake mejora el rendimiento de los datos al crear índices sobre los datos de acceso frecuente. Estos índices permiten un tiempo de recuperación de datos más rápido y ayudan a optimizar el rendimiento. Si bien cada base de datos utiliza indexación, Delta Lake es única en cuanto a que utiliza una combinación de análisis automático de metadatos y diseño de datos físicos para reducir la cantidad de archivos escaneados para cumplir con cualquier consulta.

Arquitectura de Delta Lake

Delta Lake es una capa de datos agregada y representa una evolución de la arquitectura lambda, en la que la transmisión y el procesamiento por lotes se producen en paralelo y los resultados se fusionan para proporcionar una respuesta a las consultas. Este método agrega complejidad y dificultad para mantener y operar los procesos de transmisión y lote.

Delta Lake utiliza una arquitectura de datos continua que combina flujos de trabajo de transmisión y lotes en un almacenamiento de archivos compartidos a través de un proceso conectado. El archivo de datos almacenados tiene tres capas, denominadas “arquitectura multihop”, y los datos se refinan a medida que se mueven hacia abajo en el flujo de datos:

Las tablas de bronce contienen los datos sin procesar ingeridos de varias fuentes, como los sistemas de Internet de las cosas (IoT), CRM, RDBMS y archivos JSON.
Las tablas plateadas contienen una vista más refinada de nuestros datos después de someterse a procesos de transformación e ingeniería de características.
Las tablas Gold son para usuarios finales para los procesos de informes, análisis o aprendizaje automático de BI.

Figura 2: Arquitectura de Delta Lake.

Beneficios de Delta Lake

Delta Lake puede beneficiar a cualquier empresa que dependa de soluciones robustas de big data, incluidas las de finanzas, atención de la salud y venta minorista.

Los principales beneficios de Delta Lake incluyen:

Mejor confiabilidad de datos: Delta Lake ofrece garantías transaccionales y aislamiento de snapshots, lo que mejora la confiabilidad de los datos. Además, los usuarios pueden revertir las transacciones fallidas sin afectar otras transacciones exitosas. Delta Lake utiliza mecanismos de control de versiones para agregar nuevos datos al data lake sin afectar los datos existentes.
Soporte de la evolución del esquema: Delta Lake puede respaldar la evolución del esquema en los conjuntos de datos. Maneja los cambios de esquema guardando un historial de versiones del esquema de datos y permite a los usuarios actualizar el esquema antes de escribir los datos. Delta Lake también verifica la validación del esquema de datos antes de escribir los datos.
Compatibilidad: Delta Lake es compatible con varios motores de procesamiento de big data, incluidos Apache Spark, Hadoop y Amazon EMR. Delta Lake también viene integrado con consultas similares a SQL, lo que permite a los usuarios manipular y extraer información de los conjuntos de datos.

Todos estos beneficios ayudan a que Delta Lake sea una solución importante de almacenamiento de datos.

Desventajas de Delta Lake

Si bien Delta Lake tiene muchos beneficios, también tiene algunas desventajas, entre ellas:

No es ideal para datos no estructurados: Si no se ocupa de grandes cantidades de datos no estructurados o tiene una pequeña necesidad de almacenamiento de datos, es posible que Delta Lake no sea la mejor solución para usted. Las soluciones de almacenamiento de datos pueden ser más simples de implementar y más rentables.
No es fácil de aprender: Si bien Delta Lake es una excelente solución para cargas de trabajo de big data, puede requerir recursos de desarrollo adicionales y tiempo para implementarla. Además, hay una curva de aprendizaje pronunciada para los usuarios que son nuevos en la plataforma.

Cómo obtener e implementar Delta Lake

Puede obtener Delta Lake de varias fuentes posibles, incluidos los repositorios Apache Spark de GitHub , el sitio web de Delta Lake y aplicaciones populares de terceros como Databricks. Delta Lake se implementa al agregarlo como motor de procesamiento a un clúster de big data existente, como Apache Spark, Hadoop o Amazon EMR.

Conclusiones

Delta Lake es una excelente solución para cargas de trabajo de big data que permite a los usuarios administrar conjuntos de datos no estructurados de manera confiable. Proporciona funciones como transacciones ACID, validación de esquema e integración de API. Si bien Delta Lake tiene algunos requisitos de almacenamiento aéreo, puede manejar el escalamiento de un negocio basado en datos de manera efectiva. Delta Lake proporciona un marco sólido para mejorar la calidad y confiabilidad de los datos y es una adición útil a cualquier plataforma de big data.

¿Busca infraestructura de almacenamiento con almacenamiento de objetos lo suficientemente rápido como para admitir su Delta Lake? Continúe leyendo para aprender cómo construir una estación de datos abierta con Delta Lake y FlashBlade ®.