Unified, geautomatiseerd en klaar om data om te zetten in informatie.
Ontdek hoe u de ware waarde van uw gegevens kunt ontsluiten.
Delta Lake is een open source dataopslagframework dat is ontworpen om de betrouwbaarheid en prestaties van datalakes te optimaliseren. Het pakt enkele van de veelvoorkomende problemen aan waarmee datalakes worden geconfronteerd, zoals dataconsistentie, datakwaliteit en gebrek aan transactionaliteit. Het doel is om een oplossing voor dataopslag te bieden die schaalbare, big data-workloads kan verwerken in een datagedreven bedrijf.
Delta Lake werd in 2019 gelanceerd door Databricks, een Apache Spark-bedrijf, als een cloud table-formaat gebouwd op open standaarden en gedeeltelijk open source ter ondersteuning van de gevraagde functies van moderne dataplatforms, zoals ACID-garanties, gelijktijdige herschrijvers, datamutabiliteit en meer.
Delta Lake is gebouwd om het gebruik van datalakes te ondersteunen en te verbeteren, die enorme hoeveelheden zowel gestructureerde als ongestructureerde data bevatten.
Datawetenschappers en dataanalisten gebruiken datalakes om waardevolle inzichten uit deze enorme datasets te manipuleren en te extraheren. Hoewel datalakes een revolutie teweeg hebben gebracht in de manier waarop we data beheren, hebben ze ook een aantal beperkingen, waaronder datakwaliteit, dataconsistentie en, de primaire, een gebrek aan afgedwongen schema's, waardoor het moeilijk is om machine learning en complexe analytische activiteiten uit te voeren op ruwe data.
In 2021 voerden datawetenschappers uit zowel de academische wereld als de technologie aan dat, vanwege deze beperkingen, datalakes binnenkort zouden worden vervangen door "lakehouses", open platforms die datawarehousing en geavanceerde analyses verenigen.
Afbeelding 1: Voorbeeld van het ontwerp van data lakehousesystemen op basis van de paper van Michael Armbrust, Ali Ghodsi, Reynold Xin en Matei Zaharia. Delta Lake voegt transacties, versiebeheer en aanvullende datastructuren toe aan bestanden in een open formaat en kan worden opgevraagd met diverse API's en engines.
Delta Lake is een belangrijk onderdeel van elke meerhuisinfrastructuur door een belangrijke dataopslaglaag te bieden.
Delta Lake wordt gedefinieerd door:
Een Delta Lake kan het best worden begrepen binnen de bredere context van het datacenter, met name hoe het past in de buurt van datalakes, datawarehouses en datalakeshuizen. Laten we eens nader kijken:
Delta Lake is een open-source opslaglaag die de integriteit van uw oorspronkelijke data behoudt zonder dat dit ten koste gaat van de prestaties en flexibiliteit die nodig zijn voor realtime analytics, artificiële intelligentie (AI) en machine learning (ML)-applicaties.
Een datalake is een opslagplaats van ruwe data in meerdere formaten. Het volume en de verscheidenheid aan informatie in een datalake kan analyse moeilijk maken en de kwaliteit en betrouwbaarheid van data in gevaar brengen.
Een datawarehouse verzamelt informatie uit meerdere bronnen, herformatteert en organiseert deze vervolgens in een groot, geconsolideerd volume van gestructureerde data dat is geoptimaliseerd voor analyse en rapportage. Bedrijfseigen software en het niet kunnen opslaan van ongestructureerde data kunnen het nut ervan beperken.
Een datalakehouse is een modern dataplatform dat de flexibiliteit en schaalbaarheid van een datalake combineert met de structuur- en beheerfuncties van een datawarehouse in een eenvoudig, open platform.
Ervaar self-service met Pure1® voor het beheer van Pure FlashBlade™, de meest geavanceerde oplossing in de industrie die native scale-out file- en object storage biedt.
Delta Lake creëert een extra laag abstractie tussen de ruwe data en de verwerkingssystemen. Het bevindt zich bovenop een datalake en maakt gebruik van het opslagsysteem. Het verdeelt data in batches en voegt vervolgens ACID-transacties toe bovenop de batches. Delta Lake maakt ook schemahandhaving voor datavalidatie mogelijk voordat het aan het meer wordt toegevoegd.
Delta Lake slaat data op in parketformaat en gebruikt het Hadoop Distributed File System (HDFS) of Amazon S3 als opslaglaag. De opslaglaag slaat data op in onveranderlijke parketbestanden, die zijn geversieerd om schema-evolutie mogelijk te maken.
Delta Lake verbetert de dataprestaties door indexen te maken bovenop vaak gebruikte data. Deze indexen maken snellere data-ophaaltijd mogelijk en helpen de prestaties te optimaliseren. Hoewel elke database indexering gebruikt, is Delta Lake uniek omdat het een combinatie van automatische Metadata parseringen fysieke datalay-out gebruikt om het aantal gescande bestanden te verminderen om aan elke query te voldoen.
Delta Lake is een extra datalaag en vertegenwoordigt een evolutie van de lambda-architectuur, waarbij streaming en batchverwerking parallel plaatsvinden en de resultaten samengaan om een query-antwoord te geven. Deze methode voegt complexiteit en moeite toe aan het onderhouden en bedienen van de streaming- en batchprocessen.
Delta Lake maakt gebruik van een continue dataarchitectuur die streaming- en batchworkflows combineert in een gedeelde bestandsopslag via een verbonden pijplijn. Het opgeslagen databestand heeft drie lagen, ook wel een "multi-hop-architectuur" genoemd, en de data worden verfijnder naarmate ze zich downstream in de dataflow verplaatsen:
Figuur 2: Delta Lake-architectuur.
Delta Lake kan elk bedrijf ten goede komen dat vertrouwt op robuuste big data-oplossingen, waaronder die in financiën, gezondheidszorg en retail.
De belangrijkste voordelen van Delta Lake zijn onder andere:
Al deze voordelen maken van Delta Lake een belangrijke oplossing voor dataopslag.
Hoewel Delta Lake veel voordelen heeft, heeft het ook een aantal nadelen, waaronder:
U kunt Delta Lake uit verschillende mogelijke bronnen verkrijgen, waaronder Apache Spark-opslagplaatsen van GitHub, de Delta Lake-website en populaire applicaties van derden, zoals Databricks. Delta Lake wordt geïmplementeerd door het toe te voegen als een verwerkingsengine aan een bestaand big data-cluster, zoals Apache Spark, Hadoop of Amazon EMR.
Delta Lake is een uitstekende oplossing voor big data-workloads waarmee gebruikers ongestructureerde datasets betrouwbaar kunnen beheren. Het biedt functies zoals ACID-transacties, schemavalidatie en API-integratie. Hoewel Delta Lake een aantal overhead opslagvereisten heeft, kan het de schaalbaarheid van een datagedreven bedrijf effectief aan. Delta Lake biedt een robuust kader om de kwaliteit en betrouwbaarheid van data te verbeteren en is een nuttige aanvulling op elk big data-platform.
Op zoek naar opslaginfrastructuur met objectopslag die snel genoeg is om uw Delta Lake te ondersteunen? Lees verder om te leren hoe u een open datalakehouse kunt bouwen met Delta Lake en FLASHBLADE ®.
Maak je klaar voor het meest waardevolle evenement dat je dit jaar zult bijwonen.
Krijg toegang tot on-demand video's en demo's om te zien wat Everpure kan doen.
Charlie Giancarlo over waarom het beheren van data en niet opslag de toekomst zal zijn. Ontdek hoe een uniforme aanpak de IT-activiteiten van bedrijven transformeert.
Moderne workloads vragen om AI-ready snelheid, beveiliging en schaalbaarheid. Is uw stack er klaar voor?