Che cos'è la deduplica dei dati?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

La deduplica dei dati nello storage è una tecnologia fondamentale per la gestione dei carichi di dati, che consente agli utenti di tutti i tipi di risparmiare spazio ed eseguire i backup più velocemente. In questo articolo esaminiamo la deduplica dei dati nello storage, perché è importante, come funziona e i diversi tipi di processi di deduplica.

Che cos'è la deduplica dei dati?

La deduplica dei dati è il processo di eliminazione delle copie ridondanti dei dati. Si tratta di una tecnica di ottimizzazione del data storage che libera le risorse rimuovendo i segmenti di dati non univoci all'interno dei dataset.

Perché la deduplica dei dati è importante?

Con l'aumento delle operazioni basate sui dati e del posto di lavoro digitale, le organizzazioni di ogni tipo gestiscono e utilizzano più dati e li inviano da e verso più endpoint che mai.

Nel corso del tempo, è inevitabile che all'interno dei sistemi di storage possano accumularsi dati duplicati e non univoci man mano che le organizzazioni eseguono le loro operazioni quotidiane. Questi dati ridondanti sono ulteriormente aggravati quando si considera la necessità di mantenere una certa ridondanza intenzionale per finalità di disaster recovery, alta disponibilità e data protection.

I dati duplicati consumano spazio di storage che altrimenti potrebbe essere riutilizzato per gestire i volumi di dati in continuo aumento che le organizzazioni moderne devono affrontare. Rimuovendo questi dati duplicati, puoi liberare spazio senza dover acquistare capacità aggiuntiva per soddisfare la crescente domanda di dati.

In altre parole, gli investimenti in una solida capacità di deduplica dei dati si traducono direttamente in risparmi di storage. La deduplica dei dati è un processo fondamentale per aiutare le organizzazioni ad affrontare le sfide dei dati nel modo più efficiente, semplificato e sensibile ai costi possibile.

Quali sono i vantaggi della deduplica dei dati?

Il vantaggio più ovvio è che è necessario un ingombro di storage inferiore. Questo può rappresentare un risparmio significativo per le grandi organizzazioni con enormi dataset, ma i vantaggi vanno oltre i budget. Con la deduplica dei dati, i backup possono essere eseguiti più rapidamente, con meno risorse di elaborazione e storage necessarie. Gli utenti possono accedere ai dati più rapidamente e con meno errori che possono verificarsi a causa di duplicati e conflitti.

È utile notare che i costi di un data estate ingombrante vengono sostenuti ripetutamente nel tempo ogni volta che i dati vengono consultati o spostati. Al contrario, i vantaggi di eseguire la deduplica una sola volta continueranno a fornire vantaggi in futuro.

La deduplica è una tecnologia fondamentale per migliorare il funzionamento del calcolo, ed è per questo che è integrata in molti sistemi ed eseguita per impostazione predefinita.

Come funziona la deduplica?

Anche se, in sostanza, la deduplica riguarda la rimozione di istanze non univoche di dati nel set di dati, ci sono alcune sfumature tecniche che vale la pena analizzare sul funzionamento della deduplica dei dati sotto controllo.

Deduplica a livello di file

La deduplica dei dati a livello di file comporta l'eliminazione dei file duplicati. Il sistema assicura che una copia del file venga memorizzata una sola volta, collegando altri riferimenti a quel primo file.

Un esempio familiare di deduplica a livello di file è il processo di backup dello storage. Per impostazione predefinita, la maggior parte dei programmi di backup confronta i metadati dei file dei volumi di origine e di destinazione e riscrive solo i file con la cronologia delle modifiche aggiornata, lasciando gli altri solo file. Inoltre, gli utenti di solito hanno la possibilità di cancellare dalla posizione di storage tutti i file mancanti dall'origine.

Negli ambienti di dati aziendali, un processo simile viene utilizzato quando si importano o si uniscono file o quando si ottimizza lo storage. I set di file vengono sottoposti a scansione e confrontati con un indice, con i file non univoci memorizzati una sola volta e collegati solo dalle posizioni originali.

Di conseguenza, il processo è più rapido perché il sistema sta copiando meno file e lo spazio di storage viene salvato eliminando i file eliminati.

Deduplica a livello di blocco

La deduplica può essere eseguita anche a livello di blocco, ad esempio su un database o un file. In questo caso, il sistema divide le informazioni in segmenti di dati di dimensioni fisse chiamate blocchi e salva le iterazioni univoche di ciascun segmento. Un numero univoco viene generato per ogni pezzo e memorizzato in un indice. Quando un file viene aggiornato, invece di scrivere un file completamente nuovo, vengono salvati solo i dati modificati. Di conseguenza, la deduplica dei blocchi è più efficiente della deduplica dei file.

Tuttavia, la deduplica dei blocchi richiede una maggiore potenza di elaborazione e un indice più grande per monitorare i singoli elementi. La deduplica a lunghezza variabile è un metodo alternativo che utilizza segmenti di varie dimensioni, che il sistema di deduplica può utilizzare per ottenere rapporti di data reduction migliori rispetto ai blocchi a lunghezza fissa.

Deduplica inline e post-elaborazione

A seconda del caso d'uso, la deduplica può essere eseguita in linea, ovvero quando i dati vengono introdotti o importati per la prima volta. Ciò comporta una riduzione dell'ingombro iniziale dello storage, ma l'elaborazione può diventare colli di bottiglia. A causa del potenziale esaurimento della potenza di calcolo dovuto alla deduplica in linea, non è consigliabile utilizzare questo metodo con uno storage che sia in uso ogni giorno.

Invece, la deduplica può essere eseguita retroattivamente come post-elaborazione. Con questo metodo, i dati ridondanti vengono rimossi dopo l'acquisizione. Il vantaggio di questo approccio è che le operazioni possono avvenire fuori orario o ogni volta che l'utente lo specifica. Inoltre, l'utente può indicare al sistema di deduplicare i file o i dati necessari per un workload specifico. La deduplica post-elaborazione offre una maggiore flessibilità, ma richiede anche un data storage più ampio rispetto alla deduplica in linea.

deduplica dei dati e compressione e thin provisioning

La deduplica viene spesso confrontata o mescolata con compressione e thin provisioning, che sono altri due metodi per ridurre la quantità di storage. Mentre la deduplica elimina e riduce il numero di file o la quantità di dati, la compressione utilizza algoritmi per ridurre il numero di bit necessari per registrare i dati.

Il thin provisioning è una tecnica di approvvigionamento di risorse di storage o di elaborazione da altre origini di una rete, come altri utenti finali. In questo modo, le risorse esistenti vengono massimizzate, sono necessarie meno risorse in totale e l'efficienza aumenta.

Che cos'è la deduplica di Veeam?

Veeam Software è uno sviluppatore statunitense di software di backup, disaster recovery e data protection moderna per workload virtuali, cloud-native, SaaS, Kubernetes e fisici. Veeam Backup & Replication combina compressione e deduplica per massimizzare i risparmi di storage nel sistema.

Che cos'è la deduplica NTFS?

New Technology File System (NTFS) è un file system di giornale proprietario sviluppato da Microsoft. La deduplica NTFS consente di conservare lo storage eliminando la necessità di archiviare copie in eccesso dei dati, aumentando notevolmente la capacità di storage libero.

Data reduction leader del settore con Pure Storage

La deduplica dei dati è solo una parte del puzzle della data reduction più grande. Purity Reduce su FlashArray ™ non solo vanta un processo di deduplica in linea a performance elevate con una dimensione variabile del blocco di 4KB-32KB ma sfrutta anche la rimozione dei pattern, la compressione in linea, la riduzione profonda e la riduzione delle copie per fornire i rapporti di data reduction più granulari e completi del settore dello storage flash. Scopri perché la deduplica dei dati con Pure Storage ® FlashArray è diversa.

Che cos'è la deduplica dei dati?