Unificado, automatizado y listo para convertir los datos en inteligencia.
Ontdek hoe u de ware waarde van uw gegevens kunt ontsluiten.
Delta Lake es un marco de almacenamiento de datos de código abierto diseñado para optimizar la confiabilidad y el rendimiento del data lake. Aborda algunos de los problemas comunes que enfrentan los data lakes, como la consistencia de los datos, la calidad de los datos y la falta de transaccionalidad. Su objetivo es proporcionar una solución de almacenamiento de datos que pueda manejar cargas de trabajo escalables de big data en un negocio basado en datos.
Delta Lake fue lanzado por Databricks, una empresa Apache Spark, en 2019 como un formato de tabla en la nube basado en estándares abiertos y parcialmente código abierto para admitir las características solicitadas a menudo de plataformas de datos modernas, como garantías ACID, reescritores simultáneos, mutabilidad de datos y más.
Delta Lake se diseñó para respaldar y mejorar el uso de data lakes, que contienen grandes cantidades de datos estructurados y no estructurados.
Los científicos de datos y analistas de datos utilizan conjuntos de datos para manipular y extraer información valiosa de estos conjuntos de datos masivos. Si bien los data lakes han revolucionado la forma en que administramos los datos, también tienen algunas limitaciones, incluida la calidad de los datos, la consistencia de los datos y, la principal, la falta de esquemas aplicados, lo que dificulta la realización del aprendizaje automático y las operaciones de análisis complejas en los datos sin procesar.
En 2021, científicos de datos tanto académicos como tecnológicos argumentaron que, debido a estas limitaciones, los conjuntos de datos pronto serían reemplazados por “lagos”, que son plataformas abiertas que unifican el almacenamiento de datos y el análisis avanzado.
Figura 1: Ejemplo de diseño de sistema de lago de datos del artículo de Michael Armbrust, Ali Ghodsi, Reynold Xin y Matei Zaharia. Delta Lake agrega transacciones, versiones y estructuras de datos auxiliares sobre archivos en un formato abierto y se puede consultar con diversas API y motores.
Delta Lake es una parte importante de cualquier infraestructura de lago al proporcionar una capa de almacenamiento de datos clave.
Delta Lake se define por:
Un lago Delta se comprende mejor dentro del contexto más amplio del centro de datos, particularmente cómo encaja junto con los lagos de datos, los almacenes de datos y las casas de lagos de datos. Echemos un vistazo más de cerca:
Delta Lake es una capa de almacenamiento de código abierto que preserva la integridad de sus datos originales sin sacrificar el rendimiento y la agilidad necesarios para las aplicaciones de análisis en tiempo real, inteligencia artificial (AI) y aprendizaje automático (ML).
Un data lake es un repositorio de datos sin procesar en varios formatos. El volumen y la variedad de información en un data lake pueden dificultar el análisis y comprometer la calidad y confiabilidad de los datos.
Un almacenamiento de datos recopila información de varias fuentes, luego la reformatea y la organiza en un gran volumen consolidado de datos estructurados que se optimiza para el análisis y la generación de informes. El software patentado y la incapacidad de almacenar datos no estructurados pueden limitar su utilidad.
Un data lakehouse es una plataforma de datos moderna que combina la flexibilidad y escalabilidad de un data lake con las características de estructura y administración de un almacenamiento de datos en una plataforma simple y abierta.
Experimente una instancia de autoservicio de Pure1® para administrar Pure FlashBlade™, la solución más avanzada de la industria que ofrece almacenamiento de archivos y objetos de escalabilidad horizontal nativa.
Delta Lake trabaja creando una capa adicional de abstracción entre los datos sin procesar y los motores de procesamiento. Se asienta sobre un data lake y utiliza su sistema de almacenamiento. Divide los datos en lotes y luego agrega transacciones ACID sobre los lotes. Delta Lake también permite la aplicación de esquemas para la validación de datos antes de agregarlos al lago.
Delta Lake almacena datos en formato Parquet y utiliza el Hadoop Distributed File System (HDFS) o Amazon S3 como capa de almacenamiento. La capa de almacenamiento almacena datos en archivos Parquet inmutables, que tienen versiones para permitir la evolución del esquema.
Delta Lake mejora el rendimiento de los datos al crear índices sobre los datos de acceso frecuente. Estos índices permiten un tiempo de recuperación de datos más rápido y ayudan a optimizar el rendimiento. Si bien cada base de datos utiliza indexación, Delta Lake es única en cuanto a que utiliza una combinación de análisis automático de metadatos y diseño de datos físicos para reducir la cantidad de archivos escaneados para cumplir con cualquier consulta.
Delta Lake es una capa de datos agregada y representa una evolución de la arquitectura lambda, en la que la transmisión y el procesamiento por lotes se producen en paralelo y los resultados se fusionan para proporcionar una respuesta a las consultas. Este método agrega complejidad y dificultad para mantener y operar los procesos de transmisión y lote.
Delta Lake utiliza una arquitectura de datos continua que combina flujos de trabajo de transmisión y lotes en un almacenamiento de archivos compartidos a través de un proceso conectado. El archivo de datos almacenados tiene tres capas, denominadas “arquitectura multihop”, y los datos se refinan a medida que se mueven hacia abajo en el flujo de datos:
Figura 2: Arquitectura de Delta Lake.
Delta Lake puede beneficiar a cualquier empresa que dependa de soluciones robustas de big data, incluidas las de finanzas, atención de la salud y venta minorista.
Los principales beneficios de Delta Lake incluyen:
Todos estos beneficios ayudan a que Delta Lake sea una solución importante de almacenamiento de datos.
Si bien Delta Lake tiene muchos beneficios, también tiene algunas desventajas, entre ellas:
Puede obtener Delta Lake de varias fuentes posibles, incluidos los repositorios Apache Spark de GitHub , el sitio web de Delta Lake y aplicaciones populares de terceros como Databricks. Delta Lake se implementa al agregarlo como motor de procesamiento a un clúster de big data existente, como Apache Spark, Hadoop o Amazon EMR.
Delta Lake es una excelente solución para cargas de trabajo de big data que permite a los usuarios administrar conjuntos de datos no estructurados de manera confiable. Proporciona funciones como transacciones ACID, validación de esquema e integración de API. Si bien Delta Lake tiene algunos requisitos de almacenamiento aéreo, puede manejar el escalamiento de un negocio basado en datos de manera efectiva. Delta Lake proporciona un marco sólido para mejorar la calidad y confiabilidad de los datos y es una adición útil a cualquier plataforma de big data.
¿Busca infraestructura de almacenamiento con almacenamiento de objetos lo suficientemente rápido como para admitir su Delta Lake? Continúe leyendo para aprender cómo construir una estación de datos abierta con Delta Lake y FlashBlade ®.
Prepárese para el evento más valioso al que asistirá este año.
Acceda a videos y demostraciones según demanda para ver lo que Everpure puede hacer.
Charlie Giancarlo explica por qué la administración de datos, no el almacenamiento, es el futuro. Descubra cómo un enfoque unificado transforma las operaciones de TI de una empresa.
Las cargas de trabajo modernas exigen velocidad, seguridad y escalabilidad listas para la AI. ¿Su pila está lista?