Pure Knowledge
Wat is datadeduplicatie?

Wat is datadeduplicatie?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

Datadeduplicatie in opslag is een fundamentele technologie voor het beheer van dataloads, waardoor gebruikers van alle soorten ruimte kunnen besparen en sneller back-ups kunnen maken. In dit artikel kijken we naar datadeduplicatie in opslag, waarom het belangrijk is, hoe het werkt en de verschillende soorten deduplicatieprocessen.

Wat is datadeduplicatie?

Datadeduplicatie is het proces van het elimineren van redundante datakopieën. Het is een optimalisatietechniek voor dataopslag die resources vrijmaakt door niet-unieke datasegmenten binnen datasets te verwijderen.

Waarom is datadeduplicatie belangrijk?

Met de opkomst van datagestuurde operaties en de digitale werkplek beheren en gebruiken organisaties van alle soorten meer data en sturen ze deze van en naar meer eindpunten dan ooit.

Na verloop van tijd is het onvermijdelijk dat dubbele, niet-unieke data zich binnen opslagsystemen kunnen ophopen naarmate organisaties hun dagelijkse activiteiten uitvoeren. Deze redundante data worden verder samengesteld wanneer u rekening houdt met de noodzaak om opzettelijke redundantie te handhaven voor disaster recovery, hoge beschikbaarheid en dataprotectiedoeleinden.

Dubbele data verbruikt opslagruimte die anders zou kunnen worden hergebruikt voor het omgaan met de steeds toenemende datavolumes waar moderne organisaties mee te maken hebben. Door deze dubbele data te verwijderen, kunt u ruimte vrijmaken zonder dat u extra capaciteit hoeft aan te schaffen om aan de groeiende data-eisen te voldoen.

Met andere woorden, investeringen in solide datadeduplicatiecapaciteit vertaalt zich direct in opslagbesparingen. Datadeduplicatie is een fundamenteel proces om organisaties te helpen hun data-uitdagingen op de meest efficiënte, gestroomlijnde en kostengevoelige manieren aan te gaan.

Wat zijn de voordelen van datadeduplicatie?

Het meest voor de hand liggende voordeel is dat een kleinere storage footprint nodig is. Dit kan een aanzienlijke besparing zijn voor grote organisaties met enorme datasets, maar de voordelen gaan verder dan budgetten. Met datadeduplicatie kunnen back-ups sneller worden uitgevoerd, met minder compute- en opslagresources. Gebruikers hebben sneller toegang tot data en met minder fouten die kunnen ontstaan door duplicaten en conflicten.

Het is nuttig om op te merken dat de kosten van een opgeblazen data estate steeds opnieuw worden gemaakt wanneer de data wordt benaderd of verplaatst. Omgekeerd zullen de voordelen van het uitvoeren van deduplicatie in de toekomst voordelen blijven bieden.

Deduplicatie is een fundamentele technologie om computergebruik beter te laten werken. Daarom is het ingebouwd in veel systemen en wordt het standaard uitgevoerd.

Hoe werkt deduplicatie?

Hoewel deduplicatie in de kern draait om het verwijderen van niet-unieke instances van data in uw dataset, zijn er een aantal technische nuances die de moeite waard zijn om te onderzoeken hoe datadeduplicatie onder de motorkap werkt.

Deduplicatie op bestandsniveau

Datadeduplicatie op bestandsniveau houdt in dat dubbele bestanden worden geëlimineerd. Het systeem zorgt ervoor dat een bestandskopie slechts één keer wordt opgeslagen, waarbij andere verwijzingen naar dat eerste bestand worden gekoppeld.

Een bekend voorbeeld van deduplicatie op bestandsniveau is het opslagback-upproces. De meeste back-upprogramma's vergelijken standaard de bestandsMetadata van de bron- en doelvolumes en herschrijven alleen die bestanden met een bijgewerkte wijzigingsgeschiedenis, waardoor de andere bestanden alleen worden gelaten. Daarnaast hebben gebruikers meestal de mogelijkheid om bestanden die uit de bron ontbreken, van de opslaglocatie te wissen.

In enterprise data-omgevingen wordt een soortgelijk proces gebruikt bij het importeren of samenvoegen van bestanden of bij het optimaliseren van opslag. Bestandssets worden gescand en vergeleken met een index, waarbij niet-unieke bestanden eenmalig worden opgeslagen en alleen vanaf hun oorspronkelijke locaties worden gekoppeld.

Als gevolg daarvan gaat het proces sneller omdat het systeem minder bestanden kopieert en opslagruimte wordt opgeslagen door het verwijderen van verwijderde bestanden.

Block-level deduplicatie

Deduplicatie kan ook op blokniveau worden uitgevoerd, bijvoorbeeld op een database of bestand. In dit geval verdeelt het systeem de informatie in datasegmenten van een vaste grootte die blokken worden genoemd en slaat het unieke iteraties van elk segment op. Voor elk stuk wordt een uniek nummer gegenereerd en opgeslagen in een index. Wanneer een bestand wordt bijgewerkt, in plaats van een geheel nieuw bestand te schrijven, worden alleen de gewijzigde gegevens opgeslagen. Als gevolg daarvan is blokdeduplicatie efficiënter dan bestandsdeduplicatie.

Blokdeduplicatie vergt echter meer verwerkingskracht en vereist een grotere index om de afzonderlijke stukken te volgen. Deduplicatie met variabele lengte is een alternatieve methode waarbij segmenten van verschillende groottes worden gebruikt, die het deduplicatiesysteem kan gebruiken om betere datareductieverhoudingen te bereiken dan bij blokken met vaste lengte.

Inline vs. post-processing deduplicatie

Afhankelijk van de use case kan deduplicatie inline worden uitgevoerd, wat betekent dat data voor het eerst worden geïntroduceerd of geïmporteerd. Dit resulteert in een verminderde initiële opslagvoetafdruk, maar de verwerking kan knelpunten oplopen. Vanwege de potentiële uitputting van rekenkracht door In-line deduplicatie wordt het gebruik van deze methode met opslag die dagelijks wordt gebruikt niet aanbevolen.

In plaats daarvan kan deduplicatie met terugwerkende kracht worden uitgevoerd als nabewerking. Met deze methode worden redundante data na inname verwijderd. Het voordeel van deze aanpak is dat de bewerkingen buiten kantooruren of wanneer de gebruiker dit aangeeft, kunnen plaatsvinden. De gebruiker kan het systeem ook opdracht geven om bestanden of data te dedupliceren die nodig zijn voor een specifieke workload. Post-processing deduplicatie maakt meer flexibiliteit mogelijk, maar vereist ook grotere beschikbare dataopslag dan In-line deduplicatie

datadeduplicatie vs. compressie vs. thin provisioning

Deduplicatie wordt vaak vergeleken met of verward met compressie en Thin Provisioning, wat twee andere methoden zijn om de hoeveelheid opslag te verminderen. Hoewel deduplicatie het aantal bestanden of de hoeveelheid data elimineert en vermindert, gebruikt compressie algoritmen om het aantal bits te verminderen dat nodig is om data op te nemen.

Thin provisioning is een techniek om opslag- of computerresources uit andere bronnen op een netwerk te betrekken, zoals andere eindgebruikers. Op deze manier worden bestaande resources gemaximaliseerd, zijn er in totaal minder nodig en wordt de efficiëntie verhoogd.

Wat is Veeam-deduplicatie?

Veeam Software is een in de VS gevestigde ontwikkelaar van back-up-, disaster recovery- en moderne dataprotectiesoftware voor virtuele, cloud-native, SaaS-, Kubernetes- en fysieke workloads. Veeam Backup & Replication combineert compressie met deduplicatie om de opslagbesparingen in uw systeem te maximaliseren.

Wat is NTFS-deduplicatie?

New Technology File System (NTFS) is een eigen journaalbestandssysteem dat is ontwikkeld door Microsoft . NTFS-deduplicatie bespaart opslag door de noodzaak om overtollige kopieën van data op te slaan te elimineren, waardoor de gratis opslagcapaciteit aanzienlijk toeneemt.

Beste datareductie in zijn klasse met Pure Storage

Datadeduplicatie is slechts één onderdeel van de grotere puzzel voor datareductie. Purity Reduce op FlashArray ™ beschikt niet alleen over een high-performance In-line deduplicatie met een variabele blokgrootte van 4KB-32KB, maar maakt ook gebruik van patroonverwijdering, inline compressie, deep reduction en copy reduction om de meest granulaire en complete datareductieratio's te leveren die in de flashopslagindustrie te zien zijn. Ontdek waarom datadeduplicatie met Pure Storage ® FlashArray anders is.

Blader door key resources en evenementen

VIDEO

Bekijk: De waarde van een Enterprise Data Cloud

Charlie Giancarlo over waarom het beheren van data en niet opslag de toekomst zal zijn. Ontdek hoe een uniforme aanpak de IT-activiteiten van bedrijven transformeert.

Nu bekijken

RESOURCE

Legacy-storage kan de toekomst niet aandrijven.

Moderne workloads vragen om AI-ready snelheid, beveiliging en schaalbaarheid. Is uw stack er klaar voor?

Doe de assessment

PURE360 DEMO’S

Ontdek, leer en ervaar Pure Storage.

Krijg toegang tot on-demand video's en demo's om te zien wat Pure Storage kan doen.

Demo’s bekijken

THOUGHT LEADERSHIP

De innovatierace

De nieuwste inzichten en perspectieven van industrieleiders in de voorhoede van opslaginnovatie.

Meer lezen

Uw browser wordt niet langer ondersteund!

Oudere browsers vormen vaak een veiligheidsrisico. Om de best mogelijke ervaring te bieden bij het gebruik van onze site, dient u te updaten naar een van deze nieuwste browsers.