Unificata, automatizzata e pronta a trasformare i dati in intelligence.
Scopri come trarre il massimo dai tuoi dati.
Delta Lake è un framework di data storage open source progettato per ottimizzare l'affidabilità e le performance dei data lake. Risolve alcuni dei problemi più comuni dei data lake, come la coerenza dei dati, la qualità dei dati e la mancanza di transazionalità. Il suo obiettivo è fornire una soluzione di data storage in grado di gestire workload di Big Data scalabili in un'azienda basata sui dati.
Delta Lake è stata lanciata da Databricks, un'azienda Apache Spark, nel 2019 come un formato di tabella cloud basato su standard aperti e parzialmente open source per supportare le funzionalità richieste dalle piattaforme dati moderne, come garanzie ACID, ricritture simultanee, mutabilità dei dati e altro ancora.
Delta Lake è stato creato per supportare e migliorare l'uso dei data lake, che contengono enormi quantità di dati strutturati e non strutturati.
I data scientist e gli analisti utilizzano i data lake per manipolare ed estrarre preziose informazioni approfondite da questi enormi dataset. Anche se i data lake hanno rivoluzionato il modo in cui gestiamo i dati, presentano anche alcune limitazioni, tra cui la qualità dei dati, la coerenza dei dati e, soprattutto, la mancanza di schemi applicati, che rendono difficile eseguire il machine learning e complesse operazioni di analytics sui dati raw.
Nel 2021, i data scientist del mondo accademico e della tecnologia hanno sostenuto che, a causa di questi limiti, i data lake sarebbero stati presto sostituiti da "lakehouse", che sono piattaforme aperte che unificano il data warehousing e gli analytics avanzati.
Figura 1: Esempio di progettazione dei sistemi di data lakehouse dal documento di Michael Armbrust, Ali Ghodsi, Reynold Xin e Matei Zaharia. Delta Lake aggiunge transazioni, versioning e strutture dati ausiliarie su file in un formato aperto e può essere sottoposto a query con API e motori diversi.
Delta Lake è una parte importante di qualsiasi infrastruttura lakehouse, poiché fornisce un livello di data storage chiave.
Delta Lake è definito da:
Un Delta Lake è meglio compreso nel contesto più ampio del data center, in particolare come si inserisce insieme a data lake, data warehouse e data lake house. Diamo un'occhiata più da vicino:
Delta Lake è un livello di storage open source che preserva l'integrità dei dati originali senza sacrificare le performance e l'agilità necessarie per le applicazioni di analytics in tempo reale, intelligenza artificiale (AI) e machine learning (ML).
Un data lake è un repository di dati raw in più formati. Il volume e la varietà delle informazioni in un data lake possono rendere difficile l'analisi e compromettere la qualità e l'affidabilità dei dati.
Un data warehouse raccoglie informazioni da più origini, quindi le riformatta e le organizza in un grande volume consolidato di dati strutturati ottimizzati per l'analisi e il reporting. Un software proprietario e l'impossibilità di memorizzare dati non strutturati possono limitarne l'utilità.
Un data lakehouse è una data platform moderna che combina la flessibilità e la scalabilità di un data lake con la struttura e le funzionalità di gestione di un data warehouse in una piattaforma semplice e aperta.
Prova l'esperienza di un'istanza self-service di Pure1® per gestire Pure FlashBlade™, la soluzione più avanzata del settore che offre file e l'object storage scale-out nativi.
Delta Lake opera creando un ulteriore livello di astrazione tra i dati raw e i motori di elaborazione. Si trova sopra un data lake e utilizza il suo sistema di storage. Divide i dati in batch, quindi aggiunge le transazioni ACID ai batch. Delta Lake consente inoltre l'applicazione degli schemi per la convalida dei dati prima che vengano aggiunti al lake.
Delta Lake memorizza i dati in formato Parquet e utilizza Hadoop Distributed File System (HDFS) o Amazon S3 come livello di storage. Il livello di storage memorizza i dati in file Parquet immutabili, che vengono sottoposti a una versione per consentire l'evoluzione dello schema.
Delta Lake migliora le performance dei dati creando indici in aggiunta ai dati a cui si accede di frequente. Questi indici accelerano i tempi di recupero dei dati e ottimizzano le performance. Mentre ogni database utilizza l'indicizzazione, Delta Lake è unico nel suo genere perché utilizza una combinazione di analisi automatica dei metadati e layout fisico dei dati per ridurre il numero di file scansionati per soddisfare qualsiasi richiesta.
Delta Lake è un ulteriore livello di dati e rappresenta un'evoluzione dell'architettura lambda, in cui lo streaming e l'elaborazione in batch avvengono in parallelo e i risultati si uniscono per fornire una risposta alle query. Questo metodo aggiunge complessità e difficoltà alla manutenzione e al funzionamento dei processi di streaming e batch.
Delta Lake utilizza un'architettura dati continua che combina workflow di streaming e batch in un file store condiviso tramite una pipeline connessa. Il file di dati memorizzato ha tre livelli, indicati come "architettura multihop", e i dati vengono perfezionati man mano che si spostano a valle nel flusso di dati:
Figura 2: Architettura di Delta Lake.
Delta Lake può essere vantaggioso per qualsiasi azienda che si affida a solide soluzioni di Big Data, incluse quelle nel settore finanziario, sanitario e retail.
I vantaggi principali di Delta Lake includono:
Tutti questi vantaggi contribuiscono a rendere Delta Lake una soluzione di data storage importante.
Anche se Delta Lake offre molti vantaggi, presenta anche alcuni svantaggi, tra cui:
Puoi ottenere Delta Lake da diverse fonti possibili, tra cui i repository Apache Spark da GitHub, il sito web di Delta Lake e le applicazioni di terze parti più diffuse come Databricks. Delta Lake viene implementato aggiungendolo come motore di elaborazione a un cluster di Big Data esistente, come Apache Spark, Hadoop o Amazon EMR.
Delta Lake è una soluzione eccellente per i workload di Big Data che consente agli utenti di gestire in modo affidabile i dataset non strutturati. Fornisce funzionalità come transazioni ACID, convalida degli schemi e integrazione API. Anche se Delta Lake ha alcuni requisiti di overhead storage, può gestire efficacemente la scalabilità di un'azienda basata sui dati. Delta Lake fornisce un framework solido per migliorare la qualità e l'affidabilità dei dati ed è un'utile aggiunta a qualsiasi piattaforma di Big Data.
Cerchi un'infrastruttura di storage con object storage abbastanza veloce da supportare il tuo Delta Lake? Continua a leggere per scoprire come creare un lakehouse di dati aperti con Delta Lake e FlashBlade ®.
Preparati all'evento più importante a cui parteciperai quest'anno.
Accedi a video e demo on demand per scoprire i vantaggi che Pure Storage ti offre.
Charlie Giancarlo spiega perché il futuro è nella gestione dei dati, non dello storage. Scopri in che modo un approccio unificato trasforma le operazioni IT aziendali.
I workload moderni richiedono velocità, sicurezza e scalabilità AI-ready. Il tuo stack è pronto?