Guia do Big Data para iniciantes

Dados estruturados x dados não estruturados

Na última década, nossa definição e compreensão do que são dados mudaram radicalmente, orientadas em parte pela crescente disponibilidade de novas ferramentas para leitura, armazenamento e análise de dados não estruturados.

Antigamente, os dados não estruturados muitas vezes eram subutilizados em razão da dificuldade associada à interpretação deles. No entanto, as novas tecnologias não só facilitaram o entendimento dos dados não estruturados, como também a extração de valiosos insights dessa mina de ouro de informações.

De acordo com a IDC, o volume total de dados criados, capturados, copiados e consumidos no mundo todo até 2024 passará dos 149 zettabytes por ano, e grande parte deles será não estruturada. Todas as organizações serão beneficiadas com a criação de recursos de análise de dados não estruturados. A primeira parte desse caminho é simplesmente entender o que são dados estruturados e dados não estruturados.

Veja a seguir um breve resumo da diferença entre os dois tipos, com explicações mais detalhadas:

Característica

Dados estruturados

Dados não estruturados

Natureza dos dados

Normalmente quantitativa

Normalmente qualitativa

Modelo de dados

Predefinido; assim que é definido e alguns dados são armazenados; é difícil alterar o modelo

Nenhum esquema particular é envolvido nos dados não estruturados; o modelo de dados é muito flexível

Formato de dados

Um número limitado de formatos de dados está disponível

Uma enorme variedade de formatos de dados está disponível para os dados não estruturados

Banco de dados

São usados bancos de dados relacionais baseados em SQL

São usados bancos de dados NoSQL sem esquema específico

Pesquisa

É muito fácil pesquisar e localizar dados no banco de dados ou no conjunto de dados

É muito difícil procurar dados específicos devido à sua natureza não estruturada

Análise

Análise bem fácil devido à natureza quantitativa dos dados

Análise bem difícil, mesmo com as ferramentas de software disponíveis

Método de armazenamento

Data warehouses são usados para dados estruturados

Data lakes são usados para armazenar dados não estruturados

O que são dados estruturados?

Os dados estruturados têm um esquema claramente definido para as informações que contêm. Simplificando a definição, quaisquer dados que possam ser apresentados em um programa de planilha, como o Planilhas Google ou Microsoft Excel, são dados estruturados.

Neste exemplo, os dados podem ser representados como linhas e colunas. Cada coluna representa um atributo diferente, enquanto cada linha terá os dados associados ao atributo de uma única instância. Linhas e colunas compõem uma tabela que pode ser facilmente usada como referência.

Tabelas diferentes podem ser conectadas, isto é, elas podem ser consideradas relacionadas pela coluna em comum presente em ambas as tabelas.

Várias tabelas relacionadas em sucessão e combinação criam um banco de dados relacional. Por exemplo, o cliente, as vendas e os dados do inventário de uma loja de departamento podem ser considerados dados estruturados armazenados como um banco de dados relacional.

  • Cada cliente terá uma ID de cliente, bem como campos para nome, número para contato, informações de cartão de crédito, endereço, etc.
  • O banco de dados dos clientes pode ser conectado ao banco de dados de vendas, com atributos que incluem a hora da compra, códigos de itens comprados, valor total gasto, ID do cliente, etc. Ambas as tabelas serão conectadas ao atributo comum de ID do cliente.
  • Por fim, o banco de dados de vendas pode ser conectado ao banco de dados de inventário usando o atributo comum de código do item, interconectando efetivamente as três tabelas em um banco de dados relacional.

Dados estruturados como esses geralmente são armazenados em sistemas de gerenciamento de banco de dados relacional (RDBMSes, Relational Database Management Systems). Os bancos de dados podem ser gravados, lidos e manipulados usando linguagem de consulta estruturada (SQL, Structured Query Language), uma linguagem que foi desenvolvida pela IBM na década de 70 para dar suporte a seus bancos de dados de mainframe (apesar de ter sido inicialmente conhecida como linguagem de consulta em inglês sequencial ou SEQUEL). Esse nome se deve à sua leitura ser muito parecida com o inglês. O SQL em sua forma atual foi popularizado pela Relational Software, Inc. (atual Oracle).

O que são dados não estruturados?

Tudo que não é dado estruturado pode ser classificado como dado não estruturado. Estima-se que até 2025, 80% dos dados que encontrarmos serão dados não estruturados na forma de texto, áudio, imagem ou vídeo1.

Resumindo, dados não estruturados são dados modernos. Normalmente, esses dados:

  • São digitais e imprevisíveis
  • Estão sempre sendo criados e em movimento
  • São mesclados, multimodais e interoperáveis
  • São distribuídos geograficamente para melhor proteção

Os dados não estruturados podem ter metadados associados que, por sua vez, podem ter uma estrutura. Por exemplo, um vídeo pode ter metadados de resolução de vídeo, taxas de bits, quadros por segundo (FPS, Frames per Second), proprietário do vídeo, etc. Mas o vídeo em si não é estruturado. Quando há alguns metadados estruturados associados aos dados não estruturados, eles ocasionalmente são mencionados como dados semiestruturados.

Observando mais detalhadamente o exemplo de um vídeo do YouTube, alguns metadados estão presentes, como a hora do upload, a data do upload, o número de visualizações (parciais ou completas), o número de cliques em Gostei e Não gostei, etc. Mas o conteúdo dentro do título do vídeo, a descrição do vídeo e o vídeo em si não são estruturados. Eles têm um aspecto qualitativo que simplesmente não pode ser capturado pelos números.

O banco de dados mais frequentemente usado para dados não estruturados é o NoSQL. NoSQL significa “não somente SQL”, indicando que o banco de dados pode lidar com uma gama mais ampla de dados além dos recursos dos bancos de dados SQL. Não há esquema nem estrutura tabular para bancos de dados NoSQL; é apenas um conjunto de dados reunidos.

 

Armazenamento de dados não estruturados com UFFO

Isto posto, embora os dados não estruturados possam fornecer insights significativos com enorme potencial transformador, há desafios a serem vencidos. A solução de armazenamento avançada UFFO da Pure, o Pure Storage® FlashBlade®, oferece a velocidade associada à tecnologia de armazenamento flash, bem como a capacidade de escalar qualquer arquitetura rapidamente. Quer saber mais detalhes? A Pure oferece uma versão de avaliação gratuita do Pure FlashBlade para que você possa fazer um test drive da solução sem taxa de consumo.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387