Entre em contato

Conhecimento em Pure
O que é deduplicação de dados?

O que é deduplicação de dados?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

A desduplicação de dados no armazenamento é uma tecnologia fundamental para gerenciar cargas de dados, ajudando usuários de todos os tipos a economizar espaço e realizar backups com mais rapidez. Neste artigo, analisamos a desduplicação de dados no armazenamento, por que ela é importante, como ela funciona e os diferentes tipos de processos de desduplicação.

O que é deduplicação de dados?

A desduplicação de dados é o processo de eliminar cópias de dados redundantes. É uma técnica de otimização de armazenamento de dados que libera recursos removendo segmentos de dados não exclusivos em conjuntos de dados.

Por que a deduplicação de dados é importante?

Com o aumento das operações orientadas por dados e do local de trabalho digital, organizações de todos os tipos estão gerenciando e usando mais dados e enviando-os de e para mais endpoints do que nunca.

Ao longo do tempo, é inevitável que dados duplicados e não exclusivos possam se acumular nos sistemas de armazenamento conforme as organizações executam suas operações diárias. Esses dados redundantes são combinados ainda mais quando você considera a necessidade de manter alguma redundância intencional para fins de recuperação de desastres, alta disponibilidade e proteção de dados.

Dados duplicados consomem espaço de armazenamento que poderia ser redefinido para lidar com os volumes de dados cada vez maiores que as organizações modernas precisam enfrentar. Ao remover esses dados duplicados, você pode liberar espaço sem precisar comprar capacidade adicional para atender às crescentes demandas de dados.

Em outras palavras, o investimento em recursos sólidos de desduplicação de dados se traduz diretamente em economia de armazenamento. A desduplicação de dados é um processo fundamental para ajudar as organizações a enfrentar seus desafios de dados das maneiras mais eficientes, simplificadas e sensíveis aos custos possíveis.

Quais são os benefícios da deduplicação de dados?

O benefício mais óbvio é que é necessária uma área de armazenamento menor. Isso pode ser uma economia significativa para grandes organizações com grandes conjuntos de dados, mas os benefícios vão além do orçamento. Com a desduplicação de dados, os backups podem ser realizados mais rapidamente, com menos recursos de computação e armazenamento necessários. Os usuários podem acessar os dados mais rapidamente e com menos erros que podem surgir devido a duplicatas e conflitos.

É útil notar que os custos de um data estate inchado são incorridos repetidamente ao longo do tempo sempre que os dados são acessados ou movidos. Por outro lado, os benefícios de realizar a desduplicação uma vez continuarão a oferecer benefícios no futuro.

A desduplicação é uma tecnologia fundamental para fazer a computação funcionar melhor, e é por isso que ela é integrada a muitos sistemas e executada por padrão.

Como funciona a desduplicação?

Embora, em sua essência, a desduplicação seja sobre remover instâncias não exclusivas de dados em seu conjunto de dados, há algumas nuances técnicas que valem a pena investigar sobre como a desduplicação de dados funciona no capô.

Desduplicação em nível de arquivo

A desduplicação de dados no nível de arquivo envolve a eliminação de arquivos duplicados. O sistema garante que uma cópia do arquivo seja armazenada apenas uma vez, vinculando outras referências a esse primeiro arquivo.

Um exemplo familiar de desduplicação em nível de arquivo é o processo de backup de armazenamento. A maioria dos programas de backup, por padrão, compara os metadados dos arquivos dos volumes de origem e destino e apenas reescreve esses arquivos com histórico de modificação atualizado, deixando os outros arquivos sozinhos. Além disso, os usuários geralmente têm a opção de apagar do local de armazenamento quaisquer arquivos que estejam faltando na origem.

Em ambientes de dados corporativos, um processo semelhante é usado ao importar ou mesclar arquivos ou ao otimizar o armazenamento. Os conjuntos de arquivos são verificados e comparados a um índice, com arquivos não exclusivos armazenados uma vez e vinculados apenas a partir de seus locais originais.

Como resultado, o processo é mais rápido porque o sistema está copiando menos arquivos e o espaço de armazenamento é salvo por meio da eliminação de arquivos excluídos.

Desduplicação em nível de bloco

A desduplicação também pode ser realizada no nível de bloco, por exemplo, em um banco de dados ou arquivo. Nesse caso, o sistema divide as informações em segmentos de dados de um tamanho fixo chamado blocos e salva iterações exclusivas de cada segmento. Um número exclusivo é gerado para cada peça e armazenado em um índice. Quando um arquivo é atualizado, em vez de gravar um arquivo totalmente novo, apenas os dados alterados são salvos. Como resultado, a desduplicação em bloco é mais eficiente do que a desduplicação de arquivos.

No entanto, a desduplicação em bloco exige mais capacidade de processamento e um índice maior para rastrear as peças individuais. A desduplicação de comprimento variável é um método alternativo que usa segmentos de tamanhos variados, que o sistema de desduplicação pode usar para obter melhores taxas de redução de dados do que com blocos de comprimento fixo.

Desduplicação automática x pós-processamento

Dependendo do caso de uso, a desduplicação pode ser realizada em linha, o que significa que os dados são introduzidos ou importados pela primeira vez. Isso resulta em uma área de armazenamento inicial reduzida, mas o processamento pode ficar em gargalo. Devido ao potencial de desduplicação automática da capacidade de computação, não é recomendado usar esse método com armazenamento que está em uso diário.

Em vez disso, a desduplicação pode ser realizada retroativamente como pós-processamento. Com esse método, os dados redundantes são removidos após a ingestão. A vantagem dessa abordagem é que as operações podem ocorrer fora do horário comercial ou sempre que o usuário especificar. Além disso, o usuário pode direcionar o sistema para desduplicar arquivos ou dados necessários para uma carga de trabalho específica. A desduplicação pós-processamento permite mais flexibilidade, mas também requer maior armazenamento de dados disponível do que a desduplicação automática.

deduplicação de dados vs. compactação vs. provisionamento fino

A deduplicação é frequentemente comparada ou misturada com compactação e provisionamento thin, que são dois outros métodos para reduzir quantidades de armazenamento. Embora a desduplicação elimine e reduza o número de arquivos ou a quantidade de dados, a compactação usa algoritmos para reduzir o número de bits necessários para gravar dados.

O provisionamento thin é uma técnica de obtenção de recursos de armazenamento ou computação de outras fontes em uma rede, como outros usuários finais. Dessa forma, os recursos existentes são maximizados, menos são necessários no total e a eficiência aumenta.

O que é a desduplicação Veeam?

A Veeam Software é uma desenvolvedora de backup, recuperação de desastres e software moderno de proteção de dados para cargas de trabalho virtuais, nativas da nuvem, SaaS, Kubernetes e físicas. O Veeam Backup & Replication combina compactação com desduplicação para maximizar a economia de armazenamento em seu sistema.

O que é desduplicação de NTFS?

O New Technology File System (NTFS) é um sistema de arquivos de lançamento exclusivo desenvolvido pela Microsoft. A desduplicação de NTFS conserva o armazenamento eliminando a necessidade de armazenar cópias em excesso de dados, aumentando significativamente a capacidade de armazenamento livre.

A melhor redução de dados da categoria com a Pure Storage

A desduplicação de dados é apenas uma parte do quebra-cabeças de redução de dados maior. O Purity Reduce no FlashArray . . ostenta não apenas um processo de desduplicação automática de alto desempenho com um tamanho de bloco variável de 4KB-32KB, mas também aproveita a remoção de padrões, a compactação automática, a redução profunda e a redução de cópias para oferecer as taxas de redução de dados mais granulares e completas observadas no setor de armazenamento flash. Descubra por que a desduplicação de dados com o FlashArray da Pure Storage ® é diferente.

Confira os principais recursos e eventos

VÍDEO

Assista: O valor de um Enterprise Data Cloud.

Charlie Giancarlo sobre o por que de gerenciar dados — e não o armazenamento — é o futuro. Descubra como uma abordagem unificada transforma as operações de TI corporativas.

Assista agora

RECURSO

O armazenamento legado não pode potencializar o futuro.

Cargas de trabalho avançadas exigem velocidade, segurança e escala compatíveis com a IA. Sua pilha está pronta?

Faça a avaliação

DEMONSTRAÇÕES do PURE360

Explore, conheça e teste a Pure Storage.

Acesse vídeos e demonstrações sob demanda para ver do que a Pure Storage é capaz.

Assista às demonstrações

LIDERANÇA EM IDEIAS

A corrida pela inovação

Os insights e perspectivas mais recentes de líderes do setor na vanguarda da inovação do armazenamento.

Saiba mais

Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.

Personalize for Me

Steps Complete!

Edit My Preferences

Start a Chat

Start Over

Select an outcome priority

Back

Select an industry
Select a team

Back

Select a deployment
Select a workload

Finish

Thinking...

O que é deduplicação de dados?

O que é deduplicação de dados?

Por que a deduplicação de dados é importante?

Quais são os benefícios da deduplicação de dados?

Como funciona a desduplicação?

Desduplicação em nível de arquivo

Desduplicação em nível de bloco

Desduplicação automática x pós-processamento

deduplicação de dados vs. compactação vs. provisionamento fino

O que é a desduplicação Veeam?

O que é desduplicação de NTFS?

A melhor redução de dados da categoria com a Pure Storage

Também recomendamos…

Confira os principais recursos e eventos