Skip to Content

O que é deduplicação de dados?

Create yourself concept. Good looking young man drawing a picture, sketch of himself on grey wall background. Human face expressions, creativity; Shutterstock ID 349217183; purchase_order: dupe; job: ; client: ; other:

A desduplicação de dados no armazenamento é uma tecnologia fundamental para gerenciar cargas de dados, ajudando usuários de todos os tipos a economizar espaço e realizar backups com mais rapidez. Neste artigo, analisamos a desduplicação de dados no armazenamento, por que ela é importante, como ela funciona e os diferentes tipos de processos de desduplicação.  

O que é deduplicação de dados?

A desduplicação de dados é o processo de eliminar cópias de dados redundantes. É uma técnica de otimização de armazenamento de dados que libera recursos removendo segmentos de dados não exclusivos em conjuntos de dados.  

Por que a deduplicação de dados é importante?

Com o aumento das operações orientadas por dados e do local de trabalho digital, organizações de todos os tipos estão gerenciando e usando mais dados e enviando-os de e para mais endpoints do que nunca. 

Ao longo do tempo, é inevitável que dados duplicados e não exclusivos possam se acumular nos sistemas de armazenamento conforme as organizações executam suas operações diárias. Esses dados redundantes são combinados ainda mais quando você considera a necessidade de manter alguma redundância intencional para fins de recuperação de desastres, alta disponibilidade e proteção de dados. 

Dados duplicados consomem espaço de armazenamento que poderia ser redefinido para lidar com os volumes de dados cada vez maiores que as organizações modernas precisam enfrentar. Ao remover esses dados duplicados, você pode liberar espaço sem precisar comprar capacidade adicional para atender às crescentes demandas de dados. 

Em outras palavras, o investimento em recursos sólidos de desduplicação de dados se traduz diretamente em economia de armazenamento. A desduplicação de dados é um processo fundamental para ajudar as organizações a enfrentar seus desafios de dados das maneiras mais eficientes, simplificadas e sensíveis aos custos possíveis.

Quais são os benefícios da deduplicação de dados?

O benefício mais óbvio é que é necessária uma área de armazenamento menor. Isso pode ser uma economia significativa para grandes organizações com grandes conjuntos de dados, mas os benefícios vão além do orçamento. Com a desduplicação de dados, os backups podem ser realizados mais rapidamente, com menos recursos de computação e armazenamento necessários. Os usuários podem acessar os dados mais rapidamente e com menos erros que podem surgir devido a duplicatas e conflitos.

É útil notar que os custos de um data estate inchado são incorridos repetidamente ao longo do tempo sempre que os dados são acessados ou movidos. Por outro lado, os benefícios de realizar a desduplicação uma vez continuarão a oferecer benefícios no futuro. 

A desduplicação é uma tecnologia fundamental para fazer a computação funcionar melhor, e é por isso que ela é integrada a muitos sistemas e executada por padrão. 

Como funciona a desduplicação?

Embora, em sua essência, a desduplicação seja sobre remover instâncias não exclusivas de dados em seu conjunto de dados, há algumas nuances técnicas que valem a pena investigar sobre como a desduplicação de dados funciona no capô.

Desduplicação em nível de arquivo

A desduplicação de dados no nível de arquivo envolve a eliminação de arquivos duplicados. O sistema garante que uma cópia do arquivo seja armazenada apenas uma vez, vinculando outras referências a esse primeiro arquivo.  

Um exemplo familiar de desduplicação em nível de arquivo é o processo de backup de armazenamento. A maioria dos programas de backup, por padrão, compara os metadados dos arquivos dos volumes de origem e destino e apenas reescreve esses arquivos com histórico de modificação atualizado, deixando os outros arquivos sozinhos. Além disso, os usuários geralmente têm a opção de apagar do local de armazenamento quaisquer arquivos que estejam faltando na origem. 

Em ambientes de dados corporativos, um processo semelhante é usado ao importar ou mesclar arquivos ou ao otimizar o armazenamento. Os conjuntos de arquivos são verificados e comparados a um índice, com arquivos não exclusivos armazenados uma vez e vinculados apenas a partir de seus locais originais.

Como resultado, o processo é mais rápido porque o sistema está copiando menos arquivos e o espaço de armazenamento é salvo por meio da eliminação de arquivos excluídos. 

Desduplicação em nível de bloco

A desduplicação também pode ser realizada no nível de bloco, por exemplo, em um banco de dados ou arquivo. Nesse caso, o sistema divide as informações em segmentos de dados de um tamanho fixo chamado blocos e salva iterações exclusivas de cada segmento. Um número exclusivo é gerado para cada peça e armazenado em um índice. Quando um arquivo é atualizado, em vez de gravar um arquivo totalmente novo, apenas os dados alterados são salvos. Como resultado, a desduplicação em bloco é mais eficiente do que a desduplicação de arquivos. 

No entanto, a desduplicação em bloco exige mais capacidade de processamento e um índice maior para rastrear as peças individuais. A desduplicação de comprimento variável é um método alternativo que usa segmentos de tamanhos variados, que o sistema de desduplicação pode usar para obter melhores taxas de redução de dados do que com blocos de comprimento fixo. 

Desduplicação automática x pós-processamento

Dependendo do caso de uso, a desduplicação pode ser realizada em linha, o que significa que os dados são introduzidos ou importados pela primeira vez. Isso resulta em uma área de armazenamento inicial reduzida, mas o processamento pode ficar em gargalo. Devido ao potencial de desduplicação automática da capacidade de computação, não é recomendado usar esse método com armazenamento que está em uso diário. 

Em vez disso, a desduplicação pode ser realizada retroativamente como pós-processamento. Com esse método, os dados redundantes são removidos após a ingestão. A vantagem dessa abordagem é que as operações podem ocorrer fora do horário comercial ou sempre que o usuário especificar. Além disso, o usuário pode direcionar o sistema para desduplicar arquivos ou dados necessários para uma carga de trabalho específica. A desduplicação pós-processamento permite mais flexibilidade, mas também requer maior armazenamento de dados disponível do que a desduplicação automática.

deduplicação de dados vs. compactação vs. provisionamento fino

A deduplicação é frequentemente comparada ou misturada com compactação e provisionamento thin, que são dois outros métodos para reduzir quantidades de armazenamento. Embora a desduplicação elimine e reduza o número de arquivos ou a quantidade de dados, a compactação usa algoritmos para reduzir o número de bits necessários para gravar dados. 

O provisionamento thin é uma técnica de obtenção de recursos de armazenamento ou computação de outras fontes em uma rede, como outros usuários finais. Dessa forma, os recursos existentes são maximizados, menos são necessários no total e a eficiência aumenta.

O que é a desduplicação Veeam?

A Veeam Software é uma desenvolvedora de backup, recuperação de desastres e software moderno de proteção de dados para cargas de trabalho virtuais, nativas da nuvem, SaaS, Kubernetes e físicas. O Veeam Backup & Replication combina compactação com desduplicação para maximizar a economia de armazenamento em seu sistema. 

O que é desduplicação de NTFS?

O New Technology File System (NTFS) é um sistema de arquivos de lançamento exclusivo desenvolvido pela Microsoft. A desduplicação de NTFS conserva o armazenamento eliminando a necessidade de armazenar cópias em excesso de dados, aumentando significativamente a capacidade de armazenamento livre.

A melhor redução de dados da categoria com a Pure Storage

A desduplicação de dados é apenas uma parte do quebra-cabeças de redução de dados maior. O Purity Reduce no FlashArray . . ostenta não apenas um processo de desduplicação automática de alto desempenho com um tamanho de bloco variável de 4KB-32KB, mas também aproveita a remoção de padrões, a compactação automática, a redução profunda e a redução de cópias para oferecer as taxas de redução de dados mais granulares e completas observadas no setor de armazenamento flash. Descubra por que a desduplicação de dados com o FlashArray da Pure Storage ® é diferente.

11/2024
Pure Storage FlashArray//C | Data Sheet
FlashArray//C lets you consolidate workloads with consistent all-flash NVMe performance at a lower TCO than hybrid storage.
Datasheet
4 páginas
ENTRE EM CONTATO
Dúvidas ou comentários?

Tem dúvidas ou comentários sobre produtos ou certificações da Pure?  Estamos aqui para ajudar.

Agende uma demonstração

Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos. 

Telefone: 55-11-2844-8366

Imprensa: pr@purestorage.com

 

Sede da Pure Storage

Av. Juscelino Kubitschek, 2041

Torre B, 5º andar - Vila Olímpia

São Paulo, SP

04543-011 Brasil

info@purestorage.com

FECHAR
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.